论文精读-Swin Transformer Hierarchical Vision Transformer using Shifted Windows

看不见的罗辑

已于 2024-05-20 11:55:30 修改

阅读量885

点赞数 7

文章标签：移位窗口 Swin 视觉Transformer 论文精读

于 2024-05-20 11:40:20 首次发布

本文链接：https://blog.csdn.net/a284365/article/details/139061223

版权

论文精读-Swin Transformer: Hierarchical Vision Transformer using Shifted Windows

优点：

1、提出了新的模型设计-Swin Transformer，它通过分层设计与移位窗口实现了跨窗口的连接，增强了模型的建模能力，且将计算时间复杂度压缩至线性。

2、提出了多种变体以适应各种情况

图没有可看：论文精读-Swin Transformer Hierarchical Vision Transformer using Shifted Windows

概述

Swin可以作为计算机视觉的通用骨干。将Transformer从语言适应到视觉的挑战来自于这两个领域之间的差异，例如视觉实体的规模差异很大，以及图像中像素与文本中的单词相比的高分辨率。为了解决这些差异，我们提出了一个分层Transformer，其表示是用移位窗口计算的。移位窗口方案通过将自关注计算限制在非重叠的局部窗口，同时还允许跨窗口连接，从而提高了效率。这种分层架构具有在各种尺度上建模的灵活性，并且相对于图像大小具有线性计算复杂性。Swin transformer的这些特性使其与广泛的视觉任务兼容，包括图像分类(ImageNet-1K上的精度为87.3 top-1)和密集预测任务，如物体检测(COCO测试开发上的58.7盒AP和51.1掩模AP)和语义分割(ADE20K val上的53.5 mIoU)。其性能在COCO上大幅超过了+2.7盒AP和+2.6掩模AP，在ADE20K上超过了+3.2 mIoU，显示了基于transformer的模型作为视觉骨干的潜力。分层设计和移位窗口方法也被证明对全mlp架构是有益的。

背景介绍

在计算机视觉建模中，卷积神经网络(cnn)一直是主导。从AlexNet[35]及其在ImageNet图像分类挑战上的革命性表现开始，CNN 架构通过更大的尺度[27,69]、更广泛的连接[31]和更复杂的卷积形式[64,17,75]，变形已经进化得越来越强大。随着cnn作为各种视觉任务的骨干网络，这些架构上的进步已经导致了性能的提高，并广泛地提升了整个领域。

另一方面，自然语言处理(NLP)中网络架构的演变走了一条不同的道路，今天流行的架构取而代之的是Transformer[58]。专为序列建模和转导任务而设计，Transformer因其对数据中的远程依赖关系建模的关注而引人注目。

将其在语言领域的高性能转移到视觉领域的重大挑战可以通过两种模式之间的差异来解释。

1）其中一个差异涉及尺度。与作为语言变形中处理的基本元素的词标记不同，视觉元素在尺度上可以有很大差异，这是一个在物体检测等任务中受到关注的问题[38,49,50]。在现有的基于transformer的模型中[58,19]，标记都是固定的尺度，这一属性不适合这些视觉应用。（分层设计+移动窗口）

2）另一个区别是，与文本段落中的单词相比，图像中像素的分辨率要高得多。存在许多视觉任务，如语义分割，需要在像素级别进行密集预测，这对于高分辨率图像上的Transformer来说是难以处理的，因为其自关注的计算复杂性是图像大小的二次元。（分层设计+移动窗口）

Swin Transformer， 它构建分层特征映射，并且具有与图像大小相关的线性计算复杂度。如图1(a)所示，Swin Transformer通过从小尺寸的补丁(用灰色表示)开始，并逐渐合并更深Transformer层中的相邻补丁来构建分层表示。有了这些分层特征映射，Swin Transformer模型可以方便地利用高级技术进行密集预测，如特征金字塔-中间网络(FPN)[38]或U-Net[47]。线性计算复杂性是通过在分割图像的非重叠窗口(用红色标出)内局部计算自关注来实现的。每个窗口中的补丁数量是固定的，因此复杂度与图像大小成线性关系。这些优点使得Swin Transformer适合作为各种视觉任务的通用主干，而以前基于Transformer的架构[19]只能生成单一分辨率的特征图，并且具有二次复杂度。

Swin Transformer的一个关键设计元素是它在连续的自关注层之间的窗口分区的移位，如图2所示。移位的窗口桥接了前一层的窗口，提供了它们之间的连接，显著增强了建模能力(见表4)。这种策略在现实世界的延迟方面也很有效:窗口内的所有查询补丁共享相同的键集1，这有助于硬件中的内存访问。相比之下，早期基于滑动窗口的自注意方法[30,46]在一般硬件上由于不同的键集而遭受低延迟查询像素。我们的实验表明，所提出的移位窗口方法具有比滑动窗口方法低得多的延迟，但在建模能力上是相似的(见表5和表6)。移位窗口方法也被证明对所有mlp架构[56]有益。

方法

为了产生分层表示，随着网络的深入，通过补丁合并层来减少令牌的数量。第一个补丁合并层将每组2个×2相邻补丁的特征进行拼接，并在4c维拼接特征上应用线性层。这将令牌的数量减少2×2 = 4的倍数(分辨率的2倍downsampling)，输出维数设置为2C。之后应用Swin Transformer块进行特征变换，分辨率保持在H/8 × W/8 。这第一个补丁合并和特征变换的块被记为“Stage 2”.并重复两次，得到stage3和stage4.

Swin Transformer 模块 Swin Transformer 是通过将Transformer模块中的标准多头自关注(MSA)模块替换为基于移位窗口的模块(见3.2节)而构建的，其他层保持不变。如图3(b)所示，Swin Transformer模块由一个基于移位窗口的MSA模块组成，其次是一个两层MLP，中间是GELU非线性。在每个MSA模块和MLP模块之前应用一个LayerNorm (LN)层，在每个模块之后应用一个残余连接。

基于移位窗口的自注意

**概述：**通过窗口MSA（W-MSA)每次计算M x M个patches，将时间复杂度缩减为线性。为了提高相邻模块间的关系连接，我们使用移动窗口MSA（SW-MSA）建立关系。

1、复杂度估计：

h、w是原始图像长、宽patches数量

前者与补丁数hw是二次的，而后者在M固定时(默认设置为7)是线性的。对于一个大的hw，全局自关注计算通常是负担不起的，而基于窗口的自关注是可扩展的。

如图2所示，第一个模块使用从左上角像素开始的常规窗口划分策略，将8 ×8特征映射均匀地划分为2个大小为4 ×4 (M = 4)的×2窗口。然后，下一个模块采用从前一层偏移的窗口配置，通过从规则划分的窗口中移动(M/2, M/2)个像素来替换窗口。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

STL （swin transformer layer）成对出现因为需要一层做W-MSA,一层做SW-MSA。

2、计算过程如下：

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

3、填充方案：

1、使用0填充+mask+复原。设计中间结果保存，增加了内存和时间开销。（旧）

2、使用循环+mask+逆循环移位。硬件效率高（数据都在一个地方，搬运也方便）（ours)

4、相对位置偏差B：

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

与没有此偏差项或使用绝对位置嵌入的对应项相比，有了显著的改进。

5、架构变体：

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

实验

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

网络结构消融

位置嵌入与偏置：

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

填充方法：

滑动窗口与移位窗口：

QA

上采样与反卷积？

Transformer因其对数据中的远程依赖关系建模的关注而引
人注目？

填充后使用mask，为什么计算量大，直接填充0不行吗？？

填充完之后，复原原矩阵需要时间，将原始数据补充。应该是写入和存储消耗大。。。计算量并不大

基于窗口的自关注模块缺乏跨窗口的连接，限制了其建模能力。为了引入跨窗口连接，同时保持非重叠窗口的高效计算，我们提出了一种移位窗口分区方法，该方法在连续的Swin Transformer块中交替使用两种分区配置。

看不见的罗辑

关注

7
点赞
踩
18

收藏

觉得还不错? 一键收藏
打赏
0
评论
论文精读-Swin Transformer Hierarchical Vision Transformer using Shifted Windows

Swin可以作为计算机视觉的通用骨干。将Transformer从语言适应到视觉的挑战来自于这两个领域之间的差异，例如视觉实体的规模差异很大，以及图像中像素与文本中的单词相比的高分辨率。为了解决这些差异，我们提出了一个分层Transformer，其表示是用移位窗口计算的。移位窗口方案通过将自关注计算限制在非重叠的局部窗口，同时还允许跨窗口连接，从而提高了效率。这种分层架构具有在各种尺度上建模的灵活性，并且相对于图像大小具有线性计算复杂性。
复制链接

扫一扫