Imagenet-trained cnns are Biased towards Texture; Increasing Shape Bias Improves accuracy
2021年了,这是新年的第一篇论文笔记,这也意味着新的一年的新的研究生活开始。
目前的研究方向是对抗样本,所以大部分的论文笔记都是对抗样本方向的(first-order、patch、风格迁移、GAN等),也希望自己能够坚持写下去,研究下去,做出一定的成果。
这是一篇CVPR公众号里推送的文章,也在我的文章中提及过,同时也是ICLR2019年的文章,应该是oral,虽然本篇文章并不是关于对抗样本,但是本文提出了一个很新颖的点,是有助于进一步研究对抗样本的生成与防御方法。
论文链接:https://arxiv.org/abs/1811.12231
本文参考了对抗样本(论文解读十二)
该文章探索了CNN在图像分类是更偏重于形状还是纹理。现有理论对于CNN在图像分类时是更基于shape,而作者提出了CNN可能更基于texture的假设,且通过大量的实验证明了这个假设是正确的。
本文的解读被总结为以下几个方面:
- 数据集设置及相关实验对比
- 人和基于imagenet训练的cnn的纹理和形状偏见
- 基于SIN训练一个基于形状特征的CNNs
- 基于形状表示的CNNs的鲁棒性和准确性
- 总结
Abstract
人们普遍认为,卷积神经网络(CNNs)可以通过学习越来越复杂的物体形状表示来识别物体。最近的一些研究表明,图像纹理的作用更为重要。在此,我们通过评估cnn和人类观察者在纹理-形状线索冲突的图像上对这些相互矛盾的假设进行了定量测试。作者通过大量的实验证明图像网络训练的cnn强烈偏向于识别纹理而不是形状,这与人类行为证据形成了鲜明对比,并揭示了根本不同的分类策略。
1. 数据集设置及相关实验对比
为了验证本文观点,作者做了6个实验以及3个对比实验,在前五实验中主要是一个图像分类任务,如图中所示:原图、灰度图、轮廓图、边缘图(Canny)、纹理图,上面是不同图像在CNNs(AlexNet,GoogleLenet、VGG)中的结果。
根据简单的实验结果可以看到,网络对于轮廓及边缘图像分类能力较差,而对于人类来说还是可以接收的。
但是这样简单的对比是不公平的,本身网络是基于ImageNet训练的,应用于不同图像的测试,不同图像可能具有不同的数据分布,所以分类效果下降是有可能的。
于是提出了新的数据集包括:Texture-shape冲突的图像数据集(物体形状及纹理来源于不同类别),及Stylized-ImagNet数据集。
2. 人和基于imagenet训练的cnn的纹理和形状偏见
3. 基于SIN训练一个基于形状特征的CNNs
基于(Stylized-ImageNet,SIN)训练一个基于形状特征的CNNs;基于形状表示的CNNs的鲁棒性和准确性,通过不同训练集之间的验证可以看出基于shape(SIN中保留了shape)学习的CNNs在IN(原数据集)上仍然有效,且鲁棒性更强;反过来在基于texture的IN数据中学习的模型在SIN中验证的结果却不容乐观。
)