Intriguing Properties of Vision Transformers论文解析

该文深入探讨了视觉Transformer(ViT)的特性,包括其对遮挡的高鲁棒性,不依赖局部纹理信息,以及可能对shape和texture特征的平衡学习。作者发现,ViT在严重遮挡下仍能保持较高准确率,且位置编码可能影响模型的泛化性。此外,ViT对对抗攻击和自然扰动的鲁棒性表现出优于CNN的特点,但需要数据增强提高其抵抗力。
摘要由CSDN通过智能技术生成

Intriguing Properties of Vision Transformers

论文地址

本论文系统研究了基于Transformer和CNN构造的图像分类器一些很多有趣的特性,包括纹理与形状信息的提取效果不同。作者对模型的鲁棒性,抗攻击性,抗噪声性,泛化性等诸多特性进行了较为系统的研究,并得出了很多有趣的结论。

另:笔者总结了一些前沿Transformer网络backbone的设计想法和实验结果。汇总于该博客中。

作者总结的视觉Transformer(ViT)的一些共性结论

1:Transformer对严重的遮挡,扰动和域偏移具有高的鲁棒性。在随机遮挡80%的图像内容,其在ImageNet上仍可保持高达60%的top-1精度(最好的效果)。

 

2:Transformer对于遮挡的高鲁棒性并不因为依赖**局部纹理信息**。相比之下CNN模型更加依赖局部信息。这同Transformer的全局先验和CNN的局部先验性质分析结论一致。在对ViT**形状信息**进行编码时,ViT可以展现出与人类视觉系统相当的形状识别能力。

 

3:使用ViT对shape进行编码会产生有趣的现象,可以对图像细分下去的patch进行分类,变相完成了分割任务。不过,同CNN模型相似,基于shape信息进行学习的ViT模型对一般的对抗攻击和图像腐蚀操作没有保持较好的效果。

 

4:可以将单个ViT模型提取的特征进行组合以创建特征集合,从而在few-shot learning, 细粒度识别, 场景识别和long-tail识别的一系列分类数据集上实现较高的准确率。实验表明,ViT的有效特征是由于通过自注意力机制可以产生的灵活和动态的感受野所带来的。

ViT对遮挡的鲁棒性

其实从ViT中的self-attention结构中,可以直观感受到,模型在特征提取阶段综合考虑了所有patch之间的信息。那么理所当然,ViT对遮挡的鲁棒性应当取得远超过CNN ba

评论 8
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值