写在前面——
自 2017 年 Transformer 技术出现以来,便在 NLP、CV、语音、生物、化学等领域引起了诸多进展。
知源月旦团队期望通过“Transformer+X” 梳理清 Transformer 技术的发展脉络,以及其在各领域中的应用进展,以期推动 Transformer 技术在更多领域中的应用。
我们在前一期中,介绍了 Transformer 的基本知识,以及其在 NLP 领域的研究进展。在本篇推文中,我们将介绍Transformer 在CV中的应用。
后续我们将介绍 Transformer + 语音/生物/化学等的研究。欢迎感兴趣的同学报名来参与到后续的工作中。
Github:floatingCatty/BAAI-Monthly-
Transformer +X 研究群:
本期贡献者
熊宇轩 张智 马瑞军
赵翠翠 郝楚战 慈天宇
本文为【知源月旦】团队完成的第三期综述,后续我们会定期更新最新前沿研究进展,敬请关注。
01
前言
本文承接 Transformer+X 综述,发布了 Transformer 在 CV 领域的相关研究和发展现状。CV(Computer Vision)是 AI 领域中的重要方向之一,发展时间长,成果多,影响深,应用场景广。目前在 CV 的发展过程中,占据主导地位的依旧是以 CNN 为主的卷积网络,但是在过去的三年里,随着 GNN 和 Transformer 的出现和快速发展,CV 模型逐渐呈现出多样化的发展趋势,并且一众新构架快速在 CV 领域中落地生根。
本文以 2017 年谷歌发布的 Transformer 构架为基础,对 Transformer 在 CV 领域中的发展和应用进行综述。
Transformer 发布之初主要应用于 NLP 领域,随着理论层面的不断发展,逐渐有学者尝试将其应用在 CV 中,最早始于 2018 年发布的 Image Transformer,在过去的 2019 年和 2020 年(尤其 2020 年),基于 Transformer 的视觉模型发展迅速,出现了很多值得关注的新成果,这些成果主要集中在:
1)Transformer Relationship with CNN;
2)将 Transformer 应用在不同的任务中,主要有:Classfication、Object Detection、Image GPT、Segmentation、Video 和 Lane Detection,此外,还有本次文章没有涉及的 Vision Model 等等。
文章时序图如图 1 所示。接下来,我们将对上述内容进行详细介绍。
(横屏看更舒服)
图 1:Transformer+CV 论文时序图
02
Relationship With CNN
01【论文名称】On The Relationship Between Self-attention and Convolutional Layers
随着在自然语言处理(NLP)领域中大行其道的 Transformer 模型被研究者们引入 CV 领域,越来越多的研究者开始将 Transformer 与 CV 领域的经典深度学习模型「卷积神经网络」(CNN)进行对比。
洛桑联邦理工学院的 Jean-Baptiste Cordonnier 等人[1]于 ICLR 2020,发表了「On The Relationship Between Self-attention and Convolutional Layers」,证明了自注意力层可以实现与卷积操作相似的功能,它可以像卷积层一样关注网格化的像素模式。作者指出,在注意力头足够多的情况下,多头自注意力层对图像的表征能力与卷积层相当,从而为 Transformer 在 CV 领域中的应用提供了理论可行性基础。
回顾 1:多头注意力
文章首先简要回顾了多头注意力层的计算原理。设 表示由 T 个 维 token 组成的输入矩阵,token 代表某些离散的物体(例如,NLP 领域中的词例,CV 领域中的像素)。自注意力层通过以下公式将查询序列中的 个 token 从 维映射到 维:
(1)
其中,注意力得分的矩阵 的尺寸为 ,即, 为注意力的概率分布。同时,为了使上述自注意力模型对 token 的重新排列具有等变性,我们需要为输入序列中的每个 token 赋予一个位置编码,或通过学习得到该位置编码。经加入位置编码之后的注意力矩阵表达式为:
(2)
其中, 为包含了位置信息的矩阵。在多头自注意层中, 个输出维度为 的注意力头的输出会被连接在一起,接着被投影到维度为 的输出上,计算过程如下所示:
(3)
其中, 为投影矩阵, 为偏置项。
这种自注意力机制复制到多个头部可以让每个头部都能够通过使用不同的查询、键和值矩阵来关注输入的不同部分。
回顾 2:用于图像的注意力
随后,作者从理论上证明了自注意力与卷积层等价。
定理 1:
一个多头自注意力层,包含输入 维,输出 的 头和 的相对位置编码,可以表示核尺寸 和 输出通道的任意卷积层。
引理 1:
设一个由 个头, ,注意力头到卷积移动的双射映射为: 组成的多个头自注意层,并且假设每个头部都有:
(4)
对于具有尺寸为 的卷积核和