Visualizing and Understanding convolutional Networks(ZFNet)论文阅读笔记

最新推荐文章于 2021-10-26 20:48:05 发布

mingshili

最新推荐文章于 2021-10-26 20:48:05 发布

阅读量669

点赞数

分类专栏：基础网络研究深度学习网络可视化

本文链接：https://blog.csdn.net/mingshili/article/details/79781629

版权

深度学习同时被 3 个专栏收录

10 篇文章 0 订阅

订阅专栏

基础网络研究

3 篇文章 0 订阅

订阅专栏

网络可视化

1 篇文章 0 订阅

订阅专栏

ZFNet

观察1-利用反卷积实现可视化

注意图中的注释，解释了整个反卷积的过程如何实现了对后层特征图进行逆向可视化；
1）卷积层的逆向操作：将原始网络层的特征矩阵进行转置，然后反卷积操作，最后映射到输入的图片层，可实现可视化；
2）池化层的逆向操作：反池化过程，对于最大池化，将后层值填到前层池化时取最大值的位置，其他位置补0，如下图所示。
反卷积可视化

观察2–特征可视化

1）下面图是训练后进行可视化展示图；左边是反卷积出的可视化特征，右边是对应的输入图片（从原图中裁剪出的含有对象的patches图作为输入图）

结论

1）重构特征只包含那些具有判别能力的纹理结构： 第五层，第一行第二列的9张图输入图片差异很大，但是对应的重构输入特征则都表示了背景的草地，没有显示五花八门的对象。
2）每层网络的功能性特点：
a）第二层：：主要针对物体的边缘和轮廓，以及与颜色的组合
a）第三层：：拥有更加复杂的不变性，主要展示了相似的纹理（如第一行第一列的网络模型，第二行第四列的花纹）
a）第四层：：不同组重构特征存在重大差异性，开始体现了类与类之间的差异：狗的脸(1r1c)，鸟的腿（4r2c）等
a）第五层：：每组图片都展现了一类物体的各种姿势的特征视图，例如：键盘
特征可视化

观察3-不同层在不同迭代时期的变化

下面的图显示了训练过程中，不同迭代时期的特征图变化；其中可视化的最强重构特征，当输入图片中的最强刺激源发生变化时，对应的输出特征轮廓发生跳变。经过一定次数的迭代后，底层特征趋于稳定（会不会是回传梯度弥散的原因啊），但更高层的特征则需要更多的迭代才能收敛（40-50周期），这表明：只有所有层都收敛时，分类模型才堪用。
不同迭代

观察4-特征不变性

图5展示了5个不同的例子，图 5 右边显示了不同层特征向量所具有的的不变性能力。在第一层，很小的微变都会导致输出特征变化明显，越后面层，平移和尺度变化对最终结构的影响越小。

结论

卷积层不会带旋转操作产生不变性，除非物体是强对称的。

该图描述：
（a）为垂直移动，(b)为旋转，(c)尺度变化
列1：对图像进行各种变形；
列2-列3：原始图片和变形图片分别在层1~层7所产生特征间的欧式距离；
列4：真实类别在输出中的概率；
特征不变性

观察5-图片相关性分析

问题描述：因为深度学习没有有效理论来分析特定物件部分之间的关系，（如人的眼睛和鼻子的空间关系），但是深度学习可能非显式地计算了这些空间关系特征；

结论

1）第五层，鼻子和眼睛得分差距明显，说明第五层更加关注部件级相关性
2）第七层各部分得分差异不大，可能是第7层开始关注更高层的信息（狗的品种）。
（论文后面版本去掉该部分的实验及分析，不知为何）
遮挡实验结果

遮挡影响

1）第二列(b)：图为滑动灰色遮挡块，对第五层最强特征的影响；
红色为强，蓝色为弱。可以发现，对应狗脸部位的区域为蓝色，则说明当灰色区域遮挡狗脸的时候，削弱了第五层最强特征。
2）第4列(d)：正确分类对应的概率，是关于遮挡位置的函数，当小狗面部被遮挡，则导致概率下降，也就是蓝色区域部分。
3）第5列（e）：最可能类的分布图，也是一个关于遮挡的函数。在第一行中，只要遮挡区域不在狗的面部，输出结构都是波西米亚小狗，当遮挡区域发生的狗面部时，但又没有遮挡网球时，输出结果是“网球”。其他行输出同样的分析。对于多个对象的图片，不同位置的遮挡，会产生不同的类别输出。