继续努力,继续努力!!!第二天!!!
今天也来读一篇经典的文章
Visualizing and Understanding Convolutional Networks
Abstract
背景都是网络效果好,但是不知道为什么。本文介绍了一种神奇的方法能够深入理解中间特征层的功能和分类器的操作。在诊断方面,这些可视化使我们能够在ImageNet分类基准上找到比Krizhevsky等人更好的模型架构。我们还进行了消融研究,以发现不同模型层的性能贡献。我们展示了我们的ImageNet模型可以很好地推广到其他数据集:当softmax分类器被重新训练时,它令人信服地击败了当前在Caltech-101和Caltech-256数据集上的最先进的结果。
(听上去好厉害,这是实打实地出成果~~)
1.Introduction
前面是列举卷积网络这些年来的成就,然后说可解释这一块不咋的。接着,在这篇论文中,我们介绍了一种可视化技术,它揭示了在模型的任何层中激发单个特征映射的输入刺激。它还允许我们在训练过程中观察特征的演变,并诊断模型的潜在问题。我们提出的可视化技术使用(Zeiler等,2011)提出的多层反卷积网络(deconvnet),将特征激活投射回输入像素空间。我们还通过遮挡输入图像的部分来对分类器的输出进行敏感性分析,揭示场景的哪些部分对分类是重要的。
使用这些工具,我们从(Krizhevsky et al., 2012)的体系结构开始,探索不同的体系结构,发现在ImageNet上表现更好的体系结构。然后,我们研究了该模型对其他数据集的泛化能力,只是在上面重新训练了softmax分类器。因此,这是一种监督预训练的形式。convnet特征的泛化能力也在这些工作中得到了探索。
1.1 relate work
通过可视化特征来获得对网络的直觉是一种常见的做法,但主要局限于第一层,在第一层中,可以对像素空间进行投影。在更高层次上,情况并非如此,而且解释活动的方法有限。(Erhan et al., 2009)通过在图像空间中进行梯度下降来寻找每个单元的最优刺激,使单元的激活最大化。这需要仔细的初始化,并且不提供关于单元不变性的任何信息。受后一种方法的启发,(Le et al., 2010)(扩展了Berkes & Wiskott, 2006)的思想)展示了如何围绕最优响应计算给定单元的Hessian,从而对不变性有了一些了解。问题是,对于更高的层,不变性是非常复杂的,所以很难用简单的二次逼近来捕捉。相比之下,