TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE阅读笔记（小关键点记录）

wangtao990503

已于 2022-04-14 10:13:22 修改

阅读量1.1k

点赞数

分类专栏：论文阅读文章标签：图像处理 transformer

于 2022-04-13 20:58:19 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/wangtao990503/article/details/124151953

版权

介绍

transformer在自然语言处理领域取得了很大成功并且衍生出了诸多变体；在视觉方面虽然有前人尝试，但大多只是与Cnn相结合；其中一些完全取代了卷积，但由于使用了专门的注意力模式，尚未在现代硬件加速器上有效地扩展。

作者受 NLP 中 Transformer 拓展成功的启发，尝试将标准 Transformer 直接应用于图像，并尽可能减少修改。为此，他将图像拆分为块，并提供这些块的线性嵌入序列作为 Transformer 的输入。图像块的处理方式与 NLP 应用程序中的标记（单词）相同。

1. 在中小型数据集中，本论文提出的方法在同参数量情况下结果会逊色于resNet。原因显而易见：Transformer 缺乏 CNN 固有的一些归纳偏差，例如平移等效性和局部性，因此在数据量不足的情况下无法很好地泛化。

2. 在大规模数据集上训练时，发现 Vision Transformer (ViT) 在以足够的规模进行预训练并转移到数据点较少的任务时获得了出色的结果，ViT 在多个图像识别基准上接近或超过了最先进的水平；这一结果表明大规模训练胜过归纳偏差

前人工作

将自注意力简单地应用于图像需要每个像素都关注其他每个像素，然而这样的计算成本太高。

1. 帕尔马等人。（2018）仅在每个查询像素的局部邻域中应用自我注意，而不是全局。这种局部多头点积自注意力块可以完全替代卷积。

2.Sparse Transformers (Child et al., 2019) 对全局自注意力采用可扩展的近似值，以便适用于图像。扩展注意力的另一种方法是将其应用于不同大小的块，在极端情况下仅沿单个轴

最低0.47元/天解锁文章

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。