【Transformer】13、Augmented Shortcuts for Vision Transformers


在这里插入图片描述
论文链接: https://arxiv.org/abs/2106.15941

代码链接:未开源

一、背景

Transformer 已经在计算机视觉领域的某些任务上取得了超越 CNN 的效果。在 Transformer 的结构中,self-attention 和 MLP 模块前后通常会使用残差连接。残差连接最初是在 CNN 的结构中提出,用来缓解梯度消失问题。

二、动机

有些文章指出,没有残差连接的结构的网络效果很差,如表 1 所示,移除残差连接后,随着网络的加深,会使得不同 patch 的特征丧失区别性,如图3a所示。

这些特征无法支撑后续的预测工作。作者把这个现象叫做 feature collapse(特征崩塌)。在加上残差连接之后,能缓解上述现象,如图3 b 所示。

但是,一般的残差连接仅仅是把输入加到输出上,这会限制特征的不同性。于是,本文提出了一种增强残差连接,来提升 vision transformer 中的特征差异性。

在这里插入图片描述

三、方法

本文提出的增强残差连接结构如图 1 所示,除了基本的残差连接以外,作者提出了一个与 MSA 并行的模块,该模块有多个参数。为了降低计算成本,作者提出了使用块循环映射的方法来实现增强残差连接。

在这里插入图片描述

3.1 增强残差连接

使用 T 个增强残差连接的 MSA 模块可以表示如下:

在这里插入图片描述

  • T l i ( . ) T_{li}(.) Tli(.) 是第 l l l 个 layer 的第 i i i 个增强残差连接
  • Θ l i \Theta_{li} Θli 是增强残差连接的参数

不同于传统的残差连接,增强残差连接能够将输入映射到另外一个特征空间,只要其参数是不同的,那么就可以把输入映射为多个不同的特征,丰富特征空间。

T l i ( . ) T_{li}(.) Tli(.) 的一个简单的形式就是一系列的线性映射和激活函数的堆叠:

在这里插入图片描述

  • Θ l i ∈ R d × d \Theta_{li}\in R^{d\times d} ΘliRd×d 是权重矩阵
  • σ \sigma σ 是非线性激活函数(如GELU)
  • 上式中, T l i ( . ) T_{li}(.) Tli(.) 独立的处理每个 patch,能够保留其各自的特征,是对 MSA 的一个补充(MSA 会把不同 patch 的特征进行聚合)

使用 T 个增强残差连接的 MLP 如下:

在这里插入图片描述

  • 使用多个增强残差连接同样能够增大特征多样性

作者把同时使用 AugMSA 和 AugMLP 的模块叫做 Aug-ViT 模型,该模型的特征有更大的多样性,如图 3c 和图 4 所示。

3.2 使用循环映射进行高效实现

直接使用如公式 8 所示的方法来实现 T l i ( . ) T_{li}(.) Tli(.) 会涉及到很多矩阵相乘,会很耗资源,所以作者提出了一种 “block-circulant matrices”

Circulant matrix 是频域中的一种特殊的结构化矩阵,参数和计算量都很少。

一个 Circulant matrix C ∈ R d ′ × d ′ C \in R^{d' \times d'} CRd×d 仅有 d ′ d' d 个参数,两个 C C C 相乘的计算复杂度为 O ( d ′ l o g d ′ ) O(d' log d') O(dlogd) (使用快速傅里叶变换 FFT)。

原始的参数矩阵 Θ \Theta Θ 被切分成 b 2 b^2 b2 个子矩阵 C i j ∈ R d ′ × d ′ C^{ij} \in R^{d' \times d'} CijRd×d

在这里插入图片描述

  • d ′ d' d 是子矩阵的尺寸, b d ′ = d bd'=d bd=d
  • 每个 C i j C^{ij} Cij 都是通过循环 d ′ d' d 维向量 c i j = [ c 1 i j , c i 2 i j , . . . , c d ′ i j ] c^{ij}=[c_1^{ij}, c_i2^{ij},..., c_{d'}^{ij}] cij=[c1ij,ci2ij,...,cdij] 中的元素得到的:

在这里插入图片描述

为了实现投影映射 T ( Z ) = σ ( Z Θ ) T(Z)=\sigma(Z\Theta) T(Z)=σ(ZΘ),作者首先将输入 Z Z Z 拆分为 b b b 个切片,然后对每个切片乘以循环矩阵 C i j C^{ij} Cij,元定义域中的循环矩阵和向量直接的乘积,等价于傅里叶域中的元素相乘,输出的计算方式为:
在这里插入图片描述

四、效果

在这里插入图片描述

在这里插入图片描述

图 5 展示了不同模型的特征图,没有残差连接的深层的特征图已经没有有用的信息了(a),加上残差连接是(b)的效果,加上 Aug-ViT 是(c)的效果,可以看出(c)的特征最丰富。

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

总之,残差连接是 vision transformer 的一个非常重要的部分,能够有效避免特征崩溃,而增强残差连接能够将输入特征映射到更丰富的特征空间,让特征更加丰富。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

呆呆的猫

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值