【Transformer】14、Are Transformers More Robust Than CNNs?

呆呆的猫

已于 2022-11-08 15:59:36 修改

阅读量2k

点赞数

分类专栏： Transformer 文章标签： transformer 深度学习人工智能

于 2021-11-22 14:34:46 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/jiaoyangwm/article/details/121405112

版权

Transformer 专栏收录该内容

22 篇文章 41 订阅

订阅专栏

文章目录

在这里插入图片描述
出处：NIPS 2021

一、背景

CNN 被广泛用于计算机视觉任务中，其成功的主要原因在于 “卷积” 这一操作，“卷积” 能够引入一定的归纳偏置，如平移不变性等。

最近，未使用卷积的 vision transformer 结构在计算机视觉领域也取得了很大的成功，ViT 主要使用自注意力机制，来实现特征提取。

二、动机

有一些学者提出，Transformer 比 CNN 更加鲁棒，但作者认为他们的结论仅仅来源于现有的实验，两者并没有被放到相同的体量下来对比。比如使用 ResNet 50（约25M 参数）和 ViT-B（约86M参数）进行对比，而且训练数据集、epoch数、数据增强方法都有不同。所以作者认为谁更鲁棒的问题仍然是一个开放的问题。

所以，作者在本文中对 Transformer 和 CNN 进行了一次公平的对比

DeiT-S (22M, 76.8% top1 acc) VS. ResNet 50 (25M, 76.9% top1 acc)

三、方法

作者主要从两方面进行性能对比：

对抗鲁棒性

它们是通过向图像添加人类察觉不到的扰动或小、大小的 patch 来制作的，这会导致深度学习网络产生错误的预测，
分布外样本的鲁棒性

对网络使用和训练数据不同分布的测试数据进行测试

四、结论

Transformer 在对抗鲁棒性上没有 CNN 表现好

在这里插入图片描述

Transformer 模型能够更好的对训练数据分布外的数据进行预测

在这里插入图片描述

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
打赏
0
评论
【Transformer】14、Are Transformers More Robust Than CNNs?

文章目录一、背景二、动机三、方法四、结论本文收录于 NIPS 2021一、背景CNN 被广泛用于计算机视觉任务中，其成功的主要原因在于 “卷积” 这一操作，“卷积” 能够引入一定的归纳偏置，如平移不变性等。最近，未使用卷积的 vision transformer 结构在计算机视觉领域也取得了很大的成功，ViT 主要使用自注意力机制，来实现特征提取。二、动机有一些学者提出，Transformer 比 CNN 更加鲁棒，但作者认为他们的结论仅仅来源于现有的实验，两者并没有被放到相同的体量下来对比。
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

呆呆的猫 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。