Visualizing and Understanding convolutional Networks(ZFNet)论文阅读笔记

ZFNet

目录

本问主要记录一下该论中的一些结论

观察1-利用反卷积实现可视化

注意图中的注释,解释了整个反卷积的过程如何实现了对后层特征图进行逆向可视化;
1)卷积层的逆向操作:将原始网络层的特征矩阵进行转置,然后反卷积操作,最后映射到输入的图片层,可实现可视化;
2)池化层的逆向操作: 反池化过程,对于最大池化,将后层值填到前层池化时取最大值的位置,其他位置补0,如下图所示。
反卷积可视化
反池化过程

观察2–特征可视化

1)下面图是训练后进行可视化展示图;左边是反卷积出的可视化特征,右边是对应的输入图片(从原图中裁剪出的含有对象的patches图作为输入图)

结论

1)重构特征只包含那些具有判别能力的纹理结构: 第五层,第一行第二列的9张图输入图片差异很大,但是对应的重构输入特征则都表示了背景的草地,没有显示五花八门的对象。
2)每层网络的功能性特点:
a)第二层::主要针对物体的边缘和轮廓,以及与颜色的组合
a)第三层::拥有更加复杂的不变性,主要展示了相似的纹理(如第一行第一列的网络模型,第二行第四列的花纹)
a)第四层::不同组重构特征存在重大差异性,开始体现了类与类之间的差异:狗的脸(1r1c),鸟的腿(4r2c)等
a)第五层::每组图片都展现了一类物体的各种姿势的特征视图,例如:键盘
特征可视化
特征可视化

观察3-不同层在不同迭代时期的变化

下面的图显示了训练过程中,不同迭代时期的特征图变化;其中可视化的最强重构特征,当输入图片中的最强刺激源发生变化时,对应的输出特征轮廓发生跳变。经过一定次数的迭代后,底层特征趋于稳定(会不会是回传梯度弥散的原因啊),但更高层的特征则需要更多的迭代才能收敛(40-50周期),这表明:只有所有层都收敛时,分类模型才堪用。
不同迭代

观察4-特征不变性

图5展示了5个不同的例子,图 5 右边显示了不同层特征向量所具有的的不变性能力。在第一层,很小的微变都会导致输出特征变化明显,越后面层,平移和尺度变化对最终结构的影响越小。

结论

卷积层不会带旋转操作产生不变性,除非物体是强对称的。

该图描述:
(a)为垂直移动,(b)为旋转,(c)尺度变化
列1:对图像进行各种变形;
列2-列3:原始图片和变形图片分别在层1~层7所产生特征间的欧式距离
列4:真实类别在输出中的概率;
特征不变性

观察5-图片相关性分析

问题描述: 因为深度学习没有有效理论来分析特定物件部分之间的关系,(如人的眼睛和鼻子的空间关系),但是深度学习可能非显式地计算了这些空间关系特征

相关性计算方式

针对问题进行实验验证,用5张狗的正面图,通过系统性遮挡狗的所有图片的一部分,并计算每张图(每一列一个遮挡类型,按列进行对比);
计算 ϵli=xlix¯¯¯li ϵ i l = x i l − x ¯ i l , 其中 xli x i l x¯¯¯li x ¯ i l 分别表示原始图片和被遮挡图片缩产生的特征,然后计算不同图片两两之间 ϵli ϵ i l 的一致性,用海明距离进行计算;公式如下
Δl=5i,j=1,ijH(sign(ϵli),sign(ϵlj)) Δ l = ∑ i , j = 1 , i ≠ j 5 H ( s i g n ( ϵ i l ) , s i g n ( ϵ j l ) )
Δl Δ l 越小,表明对应操作对狗分类的影响越一致,表明这些不同图片上被遮挡的部件越存在紧密联系。
遮挡实验图
根据下表5层和7层重构特征的 Δ Δ 大小:可以发现,遮挡左眼,右眼和鼻子的 Δ Δ 比随机遮挡的 Δ Δ 更低,说明眼睛图片和鼻子图片内部存在相关性。

结论

1)第五层,鼻子和眼睛得分差距明显,说明第五层更加关注部件级相关性
2)第七层各部分得分差异不大,可能是第7层开始关注更高层的信息(狗的品种)。
(论文后面版本去掉该部分的实验及分析,不知为何)
遮挡实验结果

遮挡影响

1)第二列(b):图为滑动灰色遮挡块,对第五层最强特征的影响;
红色为强,蓝色为弱。可以发现,对应狗脸部位的区域为蓝色,则说明当灰色区域遮挡狗脸的时候,削弱了第五层最强特征。
2)第4列(d):正确分类对应的概率,是关于遮挡位置的函数,当小狗面部被遮挡,则导致概率下降,也就是蓝色区域部分。
3)第5列(e):最可能类的分布图,也是一个关于遮挡的函数。在第一行中,只要遮挡区域不在狗的面部,输出结构都是波西米亚小狗,当遮挡区域发生的狗面部时,但又没有遮挡网球时,输出结果是“网球”。其他行输出同样的分析。对于多个对象的图片,不同位置的遮挡,会产生不同的类别输出。
遮挡

观察6——特征分析

固定在ImageNet上训练的模型,然后用模型提取特征,在Caltech101和Caltech256数据集上进行分类;分别用线性SVM和softmax分类器进行分类。

结论

模型学习到的特征同样适用于SVM进行分类,说明了CNN有自动提取特征的功能。另外,随着层数的增多,分类能力稳步上升;这说明当深度增加时,网络可学到更好的特征。
特征分析

总结

本文收获:

  • 该文章给出一些很好的可视化观察技巧,以及观察的结论。
  • 对于CNN进行对象检测、语义分割等可视化的研究有很好的参考价值。
  • 可以针对新的网络(如ResNet,DenseNet)作一些类似的可视化分析,探究这些带有short path的网络的特性。
  • 此外,还需要深入地研究前层和后层的不同特性,对于FPN这种金字塔型的视觉设计进行改进。

主要参考 CSDN 机器爱学习博客
https://www.cnblogs.com/taojake-ML/p/6287158.html


  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值