论文阅读——Swin Transformer

最新推荐文章于 2025-03-05 19:31:48 发布

猫猫头不写bug

最新推荐文章于 2025-03-05 19:31:48 发布

阅读量1.5k

点赞数

分类专栏：论文阅读 Transformer 文章标签： transformer 深度学习计算机视觉

本文链接：https://blog.csdn.net/qq_36919342/article/details/124557177

版权

论文阅读同时被 2 个专栏收录

11 篇文章

订阅专栏

Transformer

6 篇文章

订阅专栏

Swin Transformer: Hierarchical Vision Transformer using Shifted Windows

1. Motivation
2. Contribution
3. Method
4. Experiment

1. Motivation

将Transformer应用到视觉领域有许多挑战，比如尺度问题——对于具有相同语义的物体有许多尺寸。
图像分辨率很大，将其像素拉成一个一维向量会大大增加计算复杂度（一般是输入特征图或者将图片分成几个patch）。

2. Contribution

基于移动窗口的分层Transformer
在这里插入图片描述

在小窗口内使用自注意力而不是像ViT一样在整张图片使用自注意力，这样自注意力的计算复杂度就是固定的——只和窗口大小有关。计算复杂度和图片尺寸成线性关系。
提出基于移动窗口的自注意力，提高模型全局建模的能力。
分层结构容易获得多尺度特征（patch merging）。

3. Method

3.1 Shifted Window

1、基本原理

在这里插入图片描述

灰色是patch块，红色框为local window，在这个window里使用自注意力。
在Layer l中，采用规则窗口划分（一般每个窗口里面有7 * 7=49个patch）。在Layer l+1层里，窗口向下向右移动（一般是移动窗口大小的一半）。
新窗口中的自我注意计算跨越了Layer l中先前窗口的边界，提供了它们之间的联系。可以更好的全局建模。
假设一个patch在Layer l层只能和window内部其他patch做全局自注意力，经过shift后，可以和先前别的窗口内的patch做交互。
但是移动窗口的方式存在窗口内patch数量不一样且窗口数目增加（原来是4个移动后变成了9个）的问题。于是作者提出了一个掩码方。

2、Masked MSA：

在这里插入图片描述
cycle shift通过拼贴的方式固定了窗口数目，计算复杂度也固定。但是原始部分和拼贴部分相互之间是不需要做交互的。这就提出了掩码操作。最后还原循环位移。
经过cycle shift后窗口如图所示：

其中窗口内不同颜色表示来自原始区域不同区域的窗口，不同颜色之间是不需要做自注意力的。

以window2为例，将区域3和6的patch向量全部都展开，拼贴成向量，再转置相乘。最后得到的自注意力矩阵，右上和左下是不需要交互的。会使用一个 $\begin{bmatrix} 0 & -100\\-100 & 0\\ \end{bmatrix}$ 的矩阵。和输出矩阵相乘。这样右上左下就会变成一个很小的负数经过softmax，权重就为0。

在这里插入图片描述

以window1为例，展平后向量是交替起来的。
在这里插入图片描述

最终得到的输出是：
在这里插入图片描述

紫色为需要做自注意力的部分，黄色是需要mask的部分。

具体还是要看源码，这里作者有给一些解释：https://github.com/microsoft/Swin-Transformer/issues/52

3、关于滑动窗口的自注意力的计算复杂度

在这里插入图片描述

（1）是普通的基于多头注意力的计算负责度；（2）是基于滑动窗口的。假设每个image有h * w个patch。
M是一个窗口的某一条边上有多少patch。
（1）的计算：
- 普通的多头注意力，一般是对于一个输入（hw * c）分别乘以一个系数矩阵(c * c)，得到Q，K，V三个向量（维度是hw * c）。这里计算复杂度就是 $3hwc^2$
- 然后Q和K相乘得到自注意力矩阵A(hw * hw)，然后A再和V做乘法，相对于一次加权。这里计算复杂度就是 $2(hw)^2c$
- 最后经过project layer (c * c)得到特定维度的输出。这里计算复杂度就是 $hwc^2$
(2)的计算：
- 因为是在窗口内做自注意力，输入的序列长度变成M*M。带入公式(1)里面就是： $4M^2c^2+2M^4c$ 。
- 一共有 $\frac{h}{M} \times \frac{w}{M}$ 个窗口。

3.2 Structure

在这里插入图片描述

（a）architecture

先把图片打成patch（size=4*4），输入的维度变成 $\frac{H}{4}\times \frac{W}{4}\times48$
Linear Embedding，C是超参数。输入会变成： $\frac{H}{4}\times \frac{W}{4}\times C$ ，然后被拉直变成： $\frac{H W}{16}\times C$
引入基于移动窗口的Transformer block（只算窗口内部的自注意力），每个窗口内部只有49个patch，降低序列长度。Transformer不改变输入输出维度。
Patch Merging，类似于pixel shuffle
- 对于一个H * W * C张量，每隔一个像素点采一次样，得到4个 $\frac{H}{2}\times \frac{W}{2}\times C$ 的张量。
- 然后在C的维度上拼接起来得到： $\frac{H}{2}\times \frac{W}{2}\times 4C$
- 然后在C这个维度上用1 * 1的卷积，将维度降到： $\frac{H}{2}\times \frac{W}{2}\times 2C$ 。空间大小减半，通道数*2。
经过patch merging，输出就变成： $\frac{H}{8}\times \frac{W}{8}\times 2C$
和ViT不一样的是，没有使用cls token，而是像卷积神经网络一样在最后输出的特征图上面增加一个global average pooling。（如果是做分类任务的话）