这几天看了这篇论文,学习记录一下。有问题的地方请指正~
论文作者:Matthew D. Zeiler, Rob Fergus (美国纽约大学)
论文会议:ECCV2014
论文链接:https://arxiv.org/pdf/1311.2901v3.pdf
摘要:
论文的背景是在2012年AlexNet (Krizhevsky) 在ImageNet竞赛上展现了突出的图像分类能力后,对于该网络为什么能够表现得如此突出、以及如何对网络做进一步提升的认识却很少。论文提出了一种全新的可视化技术,能够看到卷积神经网络中间层的特征。可以利用该可视化技术,寻找更优的网络模型。同时论文还研究了模型在其他数据集上的泛化性。
1.引入
从2012年AlexNet出世到现在,有很多科学家研发了许多在图像处理问题上表现杰出的网络模型,但是对模型的内部操作和表现的探究却很少,例如,为什么网络模型能表现得这么好?从科学的角度说,这是令人不满意的,科学的研究需要能对技术的内部工作原理做出解释。
因此,文章提出了一种可视化技术——多层反卷积神经网络(deconvnet),该反卷积技术能够展示模型每一层中的由输入激发的特征图,同时能够观测在训练过程中特征的变迁(evolution,这个词用的很有灵魂),并诊断模型的潜在问题。此外,文章还通过遮盖部分输入图像,然后对分类器的输出进行敏感性分析,说明输入图像的哪些部分对分类起了关键性作用。
使用这些技术,论文改进了AlexNet模型,改进的模型在ImageNet上展现了更优的表现。同时论文还研究了网络模型在其他数据集上的泛化性,通过仅仅重新训练最上层的softmax分类器。
2. 方法
文章使用标准的监督式卷积神经网络模型,网络模型如下图1所示。输入2D图像x,经过一系列网络层,得到若干类上的可能性向量y_hat。每一层包括:1)卷积 2)线性整流函数(我觉得就是激活) 3)最大池化(可选) 4)局部对比度归一化(可选). 顶层是全连接层,最后一层为softmax分类器。使用交叉熵损失函数。模型参数通过反向传播梯度下降法更新。
<