ImageNet-trained CNNs are biased towards texture; increasing shape bias improves accuracy and robustness
ICLR2019
Robert Geirhos, Patricia Rubisch, Claudio Michaelis, Matthias Bethge, Felix A. Wichmann, Wieland Brendel
一、简介
经过ImageNet训练的CNN强烈偏向于识别纹理,而不是形状。
如果在合适的数据集上训练,标准神经网络的纹理偏差可以被克服,并向形状偏差转变。并且,具有较高形状偏好的网络对许多不同的图像失真具有内在的更强的鲁棒性。
如图,a是大象的皮;b是猫;c是一只有着大象外皮纹理的猫。然而,卷积神经网络更倾向于用纹理和颜色来进行预测,最后会将c认为是大象的皮。
二、评估实验
实验一:
原图和纹理图都可以被卷积神经网络正确的识别出来;然而,对于黑白图和边缘图,卷积神经网络的识别准确率就相当的低,但是人类还是可以通过形状来识别出物体。
因此,我们可以得出结论,卷积神经网络对于颜色和纹理有较强的偏好,而忽略了形状。
实验二:
实验基于有自然特征但是纹理和形状相矛盾的图像。即可能是纹理正确但是形状不对的图像,也可能是纹理不对但是形状正确的图像。
红圈是人类观察者,其余的是卷积神经网路。越靠近左边就对形状的偏好性越强,越靠近右就对纹理的偏好性越强。
从中可以看出,卷积神经网络不能很好的处理域转移,即图像从自然图像到草图的变化。
实验三:
如上图所示,通过风格转换去除局部线索的数据集SIN,从而迫使网络超越纹理识别。我们用随机选择的艺术绘画的非信息风格替换了与对象相关的局部纹理信息。
BagNet卷积神经网络更加强调局部特征,IN表示原始图像数据集,SIN表示风格替换的图像。
IN -> SIN表示在IN数据集上训练,在SIN数据集上测试。
从结果中可以看出,由于纹理不在是可预测的特征,SIN -> SIN的准确率变得相对较低。其中BagNet因更加关注局部特征而在SIN数据集上训练的效果更加差劲。
实验四:
实验使用ResNet模型,唯一的区别是训练集不同。
结果可以看出Shape-ResNet的效果要由于其他。揭示了ResNet-50模型可以基于对象形状学习识别对象,CNN的纹理偏好不是由设计引起的。
三、结论
卷积神经网络表现出强烈的局部纹理偏好,而不是全局对象形状。一个原因是训练任务的本身,模型走一条专注于局部纹理的捷径,只需整合来自许多局部纹理特征就可以实现任务,而不需要经历整合和分类全局形状的过程。
使用风格转换的SIN数据集可以让模型基于形状去学习识别对象,从而减少纹理偏好。
基于形状的表示对于依赖于预先训练的卷积神经网络的图像识别任务是有益的。对于领域问题,基于形状的表示可能比基于纹理的表示更有益。