从ViT到Swin，10篇顶会论文看Transformer在CV领域的发展历程

fareise

已于 2022-04-05 16:00:28 修改

阅读量2.8k

点赞数 1

分类专栏：深度学习文章标签： transformer 深度学习人工智能

于 2022-03-05 14:37:45 首次发布

本文链接：https://blog.csdn.net/fareise/article/details/123294499

版权

本文梳理了近期10篇Transformer、Attention机制在计算机视觉领域的应用，从ViT到Swin Transformer，完整了解CV Transformer的发展过程。

摘要由CSDN通过智能技术生成

如果觉得我的算法分享对你有帮助，欢迎关注我的微信公众号“圆圆的算法笔记”，更多算法笔记和世间万物的学习记录～后台回复“VT”获取Vision Transformer论文整理

1. CV中的Transformer介绍

随着Transformer在NLP领域主流地位的确立，越来越多的工作开始尝试将Transformer应用到CV领域中。CV Transformer的发展主要经历了以下3个阶段；首先是在CNN中引入Attention机制解决CNN模型结构只能提取local信息缺乏考虑全局信息能力的问题；接下来，相关研究逐渐开始朝着使用完全的Transformer模型替代CNN，解决图像领域问题；目前Transformer解决CV问题已经初见成效，更多的工作开始研究对CV Transformer细节的优化，包括对于高分辨率图像如何提升运行效率、如何更好的将图像转换成序列以保持图像的结构信息、如何进行运行效率和效果的平衡等。本文梳理了近期10篇Transformer、Attention机制在计算机视觉领域的应用，从ViT到Swin Transformer，完整了解CV Transformer的发展过程。

2. Attention机制增强CNN阶段

CNN的模型结构特点是对局部信息汇聚建模，其劣势在于难以对长周期进行建模。而Attention模型有较强的的长周期建模能力，因此Attention Augmented Convolutional Networks（2020）提出使用Attention来弥补CNN在超长周期建模的不足。该方法将输入的图像[H, W, F]转换成二维度[H*W, F]作为Attention部分输入，Attention模型采用了multi-head attention的形式。为了弥补Transformer对于空间位置信息提取能力的缺失，本文借助了Self-Attention with Relative Position Representations（2018）的思路，在宽度和高度两个维度分别使用了相对位置编码增强Attention能力。最后，作者用Attention部分得到的信息和CNN部分得到的信息拼接到一起，共同进行后续任务，形成了二者的优势互补。这里简单介绍一下相对位置编码，它是一种替代Transformer中position embedding的方式，对于任意两个位置的元素i和，会将二者的相对位置embedding加入到计算attention的过程中。如果i和j距离为n，就用距离为n对应的一个可学习的embedding表示，同时设定某个阈值，如果i和j的距离超过k，就都用距离k对应的embedding表示。下面的公式左侧代表i和j的相对位置embedding aij怎么用在多头attention中ÿ

最低0.47元/天解锁文章

fareise

关注

1
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
从ViT到Swin，10篇顶会论文看Transformer在CV领域的发展历程

本文梳理了近期10篇Transformer、Attention机制在计算机视觉领域的应用，从ViT到Swin Transformer，完整了解CV Transformer的发展过程。
复制链接

扫一扫

专栏目录