首先问大家三个简单的问题。
这是什么?
是大象的皮。
这又是什么?
是猫。
那下面这个呢?
相信大部分人都会觉得,这是一只猫,一只有着大象外皮纹路的猫。
我们当然希望人类在图像问题上的好朋友,卷积神经网络,也会这么想。事实上呢?看看在ImageNet上预训练的ResNet-50网络对最后一张图给出的结果:
- 63.9% Indian elephant
- 26.4% indri
- 9.6% black swan
令人失望!我们在ImageNet这样的大数据集上一顿暴训,它还是睁着眼睛告诉我们这是一只大象。
划重点!这不是简单的failure case,而是近两年研究者发现的卷积神经网络在ImageNet预训练后出现的对于颜色和纹理的偏好现象。这与人类不同,目前普遍认为,人类主要是通过形状来辨别物体的。对于上面这种形状和纹理有冲突(texture-shape cue conflict)的图像,卷积神经网络更倾向用颜色和纹理来进行预测,而非形状