Transformer：开启CV研究新时代

最新推荐文章于 2023-08-14 12:46:05 发布

深度之眼

最新推荐文章于 2023-08-14 12:46:05 发布

阅读量1.2k

点赞数

分类专栏：深度学习干货粉丝的投稿人工智能干货文章标签：深度学习 transformer 计算机视觉

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_42645636/article/details/129038599

版权

深度学习干货同时被 3 个专栏收录

480 篇文章 164 订阅

订阅专栏

人工智能干货

453 篇文章 25 订阅

订阅专栏

粉丝的投稿

200 篇文章 2 订阅

订阅专栏

来源：投稿作者：魔峥
编辑：学姐

起源回顾

有关Attention的论文早在上世纪九十年代就提出了。

在2012年后的深度学习时代，Attention再次被翻了出来，被用在自然语言处理任务，提高RNN模型的训练速度。但是由于结果Attention效果太好。谷歌的科学家们在2017年提出了抛弃RNN全用Attention的神经网络结构[2]，并把这种结构取名为Transformer。

Transformer的基础元件是一种名叫Self-Attention的计算方式。假设现在一个有隐式逻辑的序列a=(a1, a2, a3, ..., ai, ...)，例如文章的文字序列，语音的声谱序列，甚至可以是心电图信号序列。我们的目标是：为每个token（元素）找到与其他token的关系权重（图1），找到这样的权重信息组合就是Transformer需要做的。

大杀四方

我们可以发现，Transformer在NLP语音识别这样的序列任务上有天生的结构优势。但是在图片识别任务中，因为序列信息不明显而很难简单使用。

事情的发展也是这样，在Transformer在NLP任务中火了3年后，VIT网络[4]提出才令Transformer正式闯入CV界，成为新一代骨干网络。

VIT的思想很简单：

没有序列就创造序列，把一个图片按序切成一个个小片（Patch）不就是有序列与token了吗（图2）？这样的想法很简单很粗暴，但效果就是好。一种全新思路设计的网络，结果直接逼近甚至超过研究多年的ResNet CNN结果【表1】。

但这种简单粗暴的切片结果是有明显的缺点。（包括但不限于以下几点）如：

新网络训练难度大，论文中几乎没告诉调参方法因为VIT的直筒式结构，对接下游任务时表现很难使用图片切开的方法，导致切口处的关联性一些影响。

后来衍生

所谓”缺陷趋生进化，完美亦是终结”。

VIT的优异表现让驱使继者进行深入持续研究。直接导致了如今Transformer在CV界大火的局面。在DeiT论文[6]中，作者提出了VIT网络的训练方案【表2】。以表2的参数为基准进行数据微调即可以得到很好的结果。

在ICCV2021上提出的PVT(Pyramid Vision Transformer)论文【5】中，将类FPN的结构（图3）因为FPN。该方案大大方便了Transformer网络接入CV下游任务，同时减少了大目标的内存计算的消耗。

在同时期ICCV2021的Swim Transformer论文[7]中，提出了W-MSA。SW-MSA交替使用（图4）的切片方案(Swim Transformer论文中还有很多重要的开创性贡献)。该方案防止了被切片处一直分开关联性差的情况。

自去年以来，CV Transformer发展更加迅速俨然成为CV界继CNN的下一代神经网络。看来新一轮的知识更新又开始了。

引文：

[1] Jay Alammar:The Illustrated Transformer https://jalammar.github.io/illustrated-transformer/

[2] Attention Is All You Need https://arxiv.org/abs/1706.03762

[3] 台湾大学李宏毅教授Attention课程ppt

[4] An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale https://arxiv.org/abs/2010.11929

[5] Pyramid Vision Transformer: A Versatile Backbone for Dense Prediction without Convolutions https://arxiv.org/abs/2102.12122

[6] Training data-efficient image transformers & distillation through attention https://arxiv.org/abs/2012.12877

[7] Swin Transformer: Hierarchical Vision Transformer using Shifted Windows https://arxiv.org/abs/2103.14030

关注下方卡片《学姐带你玩AI》🚀🚀🚀

回复“CVPR”

600+篇CVPR必读论文免费领

码字不易，欢迎大家点赞评论收藏！

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
Transformer：开启CV研究新时代

新一轮的知识更新又开始了
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。