【论文阅读】【ViT系列】Swin Transformer：使用移动窗口的多层视觉Transformer

本文链接：https://blog.csdn.net/naive_learner/article/details/122787538

论文：Swin Transformer: Hierarchical Vision Transformer using Shifted Windows
代码：https://github.com/microsoft/Swin-Transformer

1 主要贡献

Transformer架构在NLP领域已成为通行架构，但在CV领域应用尚不广泛，主要有两点原因：
1. 语言处理以单词为基本元素，其尺度不变，而视觉中的基本元素可以有明显的尺度变化；
2. 图片中像素的分辨率远高于文本中的单词；
Swin Transformer针对以上问题，借鉴了CNN的经验，构建了具有多层特征图的Transformer骨干网络，其计算复杂度与图片尺寸成线性关系；
Swin Transformer引入了连续的自注意力层的窗口分割的“移动”机制，解决了滑动窗口的延迟问题；
Swin Transformer在图像分类、物体检测和语义分割任务中都取得了出色的结果。

2 原理

2.1 总体架构

上图为Swin-T（tiny）的结构。输入的RGB图片先先被分割为不重叠的patches，每个patch大小为4*4，特征维度为48。阶段一经过线性嵌入和两个Swin Transformer block，将每个patch映射到长度为C的向量。阶段二中将阶段一的输出中2*2的相邻patches进行聚合，经过线性层后输出长度为2C的向量，再使用两个Swin Transformer block进行特征处理。阶段三和阶段四的处理方式类似。这样分层可以获得与经典的CNN分辨率相同的特征图。

Swin Transformer block

上图表示两个连续的Swin Transformer blocks，其中W-MSA和SW-MSA分别表示常规的和移动窗口的多头自注意力模块。每个Swin Transformer block是用基于移动窗口的MSA替换标准的MSA得到的。

2.2 基于移动窗口的自注意力

2.2.1 不重叠窗口中的自注意力

全局自注意力的计算复杂度与图片大小成二次关系，因此不适用于密集预测和高分辨率图像问题。因此本文提出，在局部窗口中计算自注意力，每个窗口包含M*M个patches。此时对于大小为h*w的图片，全局和基于窗口的自注意力的计算复杂度分别为：
$\Omega(\text{MSA})=4hwC^2+2(hw)^2C\\ \Omega(\text{SW-MSA})=4hwC^2+2M^2hwC$
前者与 $h w$ 成二次关系，后者与 $h w$ 成一次关系。

2.2.2 连续block中的窗口划分

不重叠的窗口中的自注意力计算缺乏跨窗口连接，因此在两个连续的Swin Transformer blocks中使用移动窗口的划分方法，如图：

相邻两层的窗口之间有 $(\lfloor\frac M2\rfloor,\lfloor\frac M2\rfloor)$ 的重叠。则连续的consecutive Swin Transformer blocks计算方法为：
$\hat{\mathbf{z}}^l=\text{W-MSA}(\text{LN}(\mathbf{z}^{l-1}))+\mathbf{z}^{l-1}\\ \mathbf{z}^l=\text{MLP}(\text{LN}(\hat{\mathbf{z}}^l))+\hat{\mathbf{z}}^l\\ \hat{\mathbf{z}}^{l+1}=\text{SW-MSA}(\text{LN}(\mathbf{z}^{l}))+\mathbf{z}^{l}\\ \mathbf{z}^{l+1}=\text{MLP}(\text{LN}(\hat{\mathbf{z}}^{l+1}))+\hat{\mathbf{z}}^{l+1}$

2.2.3 针对移动机制的高效批计算

直接采用移动窗口会导致窗口数量增加，且一部分窗口较小；而如果使用padding补全每个窗口，会导致计算量大幅增加。因此本文提出循环移动方法，将较小的不相邻的窗口拼接在一起处理，这样每层处理的窗口数量相同。原理如图：

2.2.4 相对位置偏差

$\text{Attention}(Q,K,V)=\text{SoftMax}(QK^T/\sqrt{d}+B)V$
计算attention时加入相对位置偏差 $B\in\mathbb{R}^{M^2\times M^2}$ ，其数值取自 $\hat{B}\in\mathbb{R}^{(2M-1)\times(2M-1)}$ 。使用相对位置偏差的效果优于不加入位置信息或使用绝对位置嵌入。