从理论支撑到具体应用，万字长文详述 CV 中 Transformer 的广阔天地

智源社区

于 2021-01-27 18:00:00 发布

阅读量1.5k

点赞数

文章标签：大数据计算机视觉机器学习人工智能深度学习

本文链接：https://blog.csdn.net/BAAIBeijing/article/details/113287509

版权

本文详述了Transformer自2017年引入计算机视觉（CV）领域以来的发展，从理论证明Transformer与卷积层的关系，到在图像分类、目标检测、图像分割等任务中的应用。Transformer在CV领域的应用表明，它不仅可以实现与卷积层类似的功能，还能在不同任务中取得优秀性能，尤其是在目标检测任务中，如DETR和Deformable DETR模型。此外，Transformer还被应用于视频理解、音乐生成和车道预测等任务。

摘要由CSDN通过智能技术生成

写在前面——

自 2017 年 Transformer 技术出现以来，便在 NLP、CV、语音、生物、化学等领域引起了诸多进展。

知源月旦团队期望通过“Transformer+X” 梳理清 Transformer 技术的发展脉络，以及其在各领域中的应用进展，以期推动 Transformer 技术在更多领域中的应用。

我们在前一期中，介绍了 Transformer 的基本知识，以及其在 NLP 领域的研究进展。在本篇推文中，我们将介绍Transformer 在CV中的应用。

后续我们将介绍 Transformer + 语音/生物/化学等的研究。欢迎感兴趣的同学报名来参与到后续的工作中。

Github：floatingCatty/BAAI-Monthly-

Transformer +X 研究群：

本期贡献者

熊宇轩张智马瑞军

赵翠翠郝楚战慈天宇

本文为【知源月旦】团队完成的第三期综述，后续我们会定期更新最新前沿研究进展，敬请关注。

第一期：机器学习的可解释性

第二期：Transformer+NLP

前言

本文承接 Transformer+X 综述，发布了 Transformer 在 CV 领域的相关研究和发展现状。CV（Computer Vision）是 AI 领域中的重要方向之一，发展时间长，成果多，影响深，应用场景广。目前在 CV 的发展过程中，占据主导地位的依旧是以 CNN 为主的卷积网络，但是在过去的三年里，随着 GNN 和 Transformer 的出现和快速发展，CV 模型逐渐呈现出多样化的发展趋势，并且一众新构架快速在 CV 领域中落地生根。

本文以 2017 年谷歌发布的 Transformer 构架为基础，对 Transformer 在 CV 领域中的发展和应用进行综述。

Transformer 发布之初主要应用于 NLP 领域，随着理论层面的不断发展，逐渐有学者尝试将其应用在 CV 中，最早始于 2018 年发布的 Image Transformer，在过去的 2019 年和 2020 年（尤其 2020 年），基于 Transformer 的视觉模型发展迅速，出现了很多值得关注的新成果，这些成果主要集中在：

1）Transformer Relationship with CNN；

2）将 Transformer 应用在不同的任务中，主要有：Classfication、Object Detection、Image GPT、Segmentation、Video 和 Lane Detection，此外，还有本次文章没有涉及的 Vision Model 等等。

文章时序图如图 1 所示。接下来，我们将对上述内容进行详细介绍。

（横屏看更舒服）

图 1：Transformer+CV 论文时序图

Relationship With CNN

01【论文名称】On The Relationship Between Self-attention and Convolutional Layers

随着在自然语言处理（NLP）领域中大行其道的 Transformer 模型被研究者们引入 CV 领域，越来越多的研究者开始将 Transformer 与 CV 领域的经典深度学习模型「卷积神经网络」（CNN）进行对比。

洛桑联邦理工学院的 Jean-Baptiste Cordonnier 等人[1]于 ICLR 2020，发表了「On The Relationship Between Self-attention and Convolutional Layers」，证明了自注意力层可以实现与卷积操作相似的功能，它可以像卷积层一样关注网格化的像素模式。作者指出，在注意力头足够多的情况下，多头自注意力层对图像的表征能力与卷积层相当，从而为 Transformer 在 CV 领域中的应用提供了理论可行性基础。