Mathieu Aubry, Bryan C. Russell
http://imagine.enpc.fr/~aubrym/projects/features_analysis/texts/understanding_deep_features_with_CG.pdf
一个很自然的idea。CNN学到的是什么特征?这些特征对变化的影响有什么关系?怎样研究CNN学到特征在这些变化下(object style, 3D viewpoint, color,and scene lighting configuration)的影响?论文给出了一种比较简单的方法。通过计算机图形学(CG)的方法使用一些3D模型,生成不同变化下的物体,然后输入到CNN中,通过研究CNN的输出与这些变化的关系,分析得到一些有意思的结论。论文使用了PCA方法,具体实现看paper吧。
paper得到的结论:
视角变化在高层隐藏层神经元中受到的影响变小。 个人解释:这点在其他的paper中也提到过类似的,个人解释是由于supervised leanring使得CNN学到判别性较强的特征,这些特征如果视角变化较大的话,那么分类性能就会下降。因此,CNN倾向于学到视角不变的特征。
实验发现视角变化VGG模型比Alexnet和Place模型更加不受影响。 个人解释:VGG是从imagenet训练的,物体的intra class variation比较大,比placeCNN要好。VGG比Alexnet好的原因是VGG的层数更深,浅层网络倾向于学习到简单的线性变换。
Color对PlaceCNN比较重要,而style对VGG和Alexnet更加重要。 个人解释:PlaceCNN其实学习到的是场景特征,场景中color还是很重要的判别因素,因此PlaceCNN中color比较重要;VGG和Alexnet都是物体数据作为训练集,因此,color也不是那么重要。完全是过拟合到训练集的行为。