出处:NIPS 2021
一、背景
CNN 被广泛用于计算机视觉任务中,其成功的主要原因在于 “卷积” 这一操作,“卷积” 能够引入一定的归纳偏置,如平移不变性等。
最近,未使用卷积的 vision transformer 结构在计算机视觉领域也取得了很大的成功,ViT 主要使用自注意力机制,来实现特征提取。
二、动机
有一些学者提出,Transformer 比 CNN 更加鲁棒,但作者认为他们的结论仅仅来源于现有的实验,两者并没有被放到相同的体量下来对比。比如使用 ResNet 50(约25M 参数)和 ViT-B(约86M参数)进行对比,而且训练数据集、epoch数、数据增强方法都有不同。所以作者认为谁更鲁棒的问题仍然是一个开放的问题。
所以,作者在本文中对 Transformer 和 CNN 进行了一次公平的对比
DeiT-S (22M, 76.8% top1 acc) VS. ResNet 50 (25M, 76.9% top1 acc)
三、方法
作者主要从两方面进行性能对比:
-
对抗鲁棒性
它们是通过向图像添加人类察觉不到的扰动或小、大小的 patch 来制作的,这会导致深度学习网络产生错误的预测,
-
分布外样本的鲁棒性
对网络使用和训练数据不同分布的测试数据进行测试
四、结论
Transformer 在 对抗鲁棒性上没有 CNN 表现好
Transformer 模型能够更好的对训练数据分布外的数据进行预测