Intriguing Properties of Vision Transformers
论文地址
本论文系统研究了基于Transformer和CNN构造的图像分类器一些很多有趣的特性,包括纹理与形状信息的提取效果不同。作者对模型的鲁棒性,抗攻击性,抗噪声性,泛化性等诸多特性进行了较为系统的研究,并得出了很多有趣的结论。
另:笔者总结了一些前沿Transformer网络backbone的设计想法和实验结果。汇总于该博客中。
作者总结的视觉Transformer(ViT)的一些共性结论
1:Transformer对严重的遮挡,扰动和域偏移具有高的鲁棒性。在随机遮挡80%的图像内容,其在ImageNet上仍可保持高达60%的top-1精度(最好的效果)。
2:Transformer对于遮挡的高鲁棒性并不因为依赖**局部纹理信息**。相比之下CNN模型更加依赖局部信息。这同Transformer的全局先验和CNN的局部先验性质分析结论一致。在对ViT**形状信息**进行编码时,ViT可以展现出与人类视觉系统相当的形状识别能力。
3:使用ViT对shape进行编码会产生有趣的现象,可以对图像细分下去的patch进行分类,变相完成了分割任务。不过,同CNN模型相似,基于shape信息进行学习的ViT模型对一般的对抗攻击和图像腐蚀操作没有保持较好的效果。
4:可以将单个ViT模型提取的特征进行组合以创建特征集合,从而在few-shot learning, 细粒度识别, 场景识别和long-tail识别的一系列分类数据集上实现较高的准确率。实验表明,ViT的有效特征是由于通过自注意力机制可以产生的灵活和动态的感受野所带来的。
ViT对遮挡的鲁棒性
其实从ViT中的self-attention结构中,可以直观感受到,模型在特征提取阶段综合考虑了所有patch之间的信息。那么理所当然,ViT对遮挡的鲁棒性应当取得远超过CNN ba