(
Swin Transformer 的 自注意力的计算复杂度 相对 图片尺寸 是线性的。
Swin Transformer 可以很容易地与 feature pyramid networks (FPN) / U-Net 等检测 / 分割网络结合,也可以仅使用最后一层的特征图经全局平均池化和线性层后做图像分类。
Swin Transformer能像 CNN 一样做层级式的特征提取 (能提取出多尺度的特征),同时相对图片大小具有线性计算复杂度.
两个结构是成对使用的,先使用一个W-MSA结构再使用一个SW-MSA结构。所以你会发现堆叠Swin Transformer Block的次数都是偶数(因为成对使用)。
通过Patch Merging层后,feature map的高和宽会减半,深度会翻倍。
)
Abstract:
本文正在见证计算机视觉中从 CNN 到 Transformers 的模型转变。在这项工作中,本文提出了一种称为 MoBY 的自监督学习方法,其中 Vision Transformers 作为其骨干架构。该方法基本上没有新发明,它结合了 MoCo v2 和 BYOL 并经过调整 以在 ImageNet-1K 线性评估上达到相当高的准确度:使用 DeiT-S 和 Swin-T 分别达到 72.8% 和 75.0% 的 top-1 准确度,通过 300 个 epoch 的训练。性能略好于 MoCo v3 和 DINO 最近以 DeiT 为骨干的作品,但tricks要轻得多。
更重要的是,通用 Swin Transformer 主干使本文还能够评估目标检测和语义分割等下游任务的学习表示,这与最近建立在 ViT/DeiT 上的一些方法相比,后者仅在 ImageNet 1K 上报告线性评估结果。 由于 ViT/DeiT 不适合这些密集的预测任务。本文希望本文的结果可以促进对为 Transformer 架构设计的自监督学习方法进行更全面的评估。本文的代码和模型可在 https://github.com/SwinTransformer/Transformer-SSL 获得,它将不断丰富。
Introduction:
自大约两年前以来,视觉领域正在经历两个革命性的趋势。第一个趋势是 MoCo [9] 开创的自监督视觉表示学习,它首次证明了在七个下游任务上优于 ImageNet-1K 分类之前的标准监督方法的传输性能。第二个是 基于 Transformer 的骨干架构 [7, 16, 14],它具有强大的潜力来替代之前的标准卷积神经网络,例如 ResNet [11]。开创性的工作是 ViT [7],它通过 在非重叠图像块上 直接应用 NLP 中的标准 Transformer 编码器 [17],展示了图像分类的强大性能。后续工作 DeiT [16] 调整了几种训练策略,以使 ViT 在 ImageNet-1K 图像分类上运行良好。
由于 ViT/DeiT 是为图像分类任务而设计的,并没有很好地适应需要密集预测的下游任务,但 Swin Transformer [14] 通过引入 局部性的归纳偏差、层次性 和 平移不变性,被提出用作通用视觉骨干