我对Swin Transformer V2的理解

像梦一样自由al

已于 2022-08-13 18:40:12 修改

阅读量4.4k

点赞数

分类专栏： 2022暑假机器学习文章标签： transformer 深度学习人工智能

于 2022-08-13 18:14:36 首次发布

本文链接：https://blog.csdn.net/m0_58770526/article/details/126321250

版权

2022暑假机器学习专栏收录该内容

8 篇文章

订阅专栏

Swin Transformer V2: Scaling Up Capacity and Resolution

一、前言

1.综述

本文提出一种升级版SwinTransformerV2，最高参数量可达3 Billion，可处理大尺寸图像。通过提升模型容量与输入分辨率，SwinTransformer在四个代表性基准数据集上取得了新记录。

2.要解决的问题

视觉模型通常面临尺度不稳定问题；
下游任务需要高分辨率图像，尚不明确如何将低分辨率预训练模型迁移为高分辨率版本 ；
当图像分辨率非常大时，GPU显存占用也是个问题。

3.改进方案

提出后规范化(Post Normalization)技术与可缩放(Scaled)cosine注意力提升大视觉模型的稳定性;
提出log空间连续位置偏置技术进行低分辨率预训练模型向高分辨率模型迁移；
我们还共享了至关重要的实现细节 ，它可以大幅节省GPU显存占用以使得大视觉模型训练变得可行。

二、方法

1.A Brief Review of Swin Transformer

在这里插入图片描述

Normalization Configuration 众所周知，规范化技术对于更深架构的训练非常重要。原始的SwinTransformer采用了常规的预规范化技术，见下图：
在这里插入图片描述
Relative position bias 它是原始SwinTransformer的一个关键成分，它引入了一个额外参数化偏置，公式如下：

Issues in scaling up model capacity and window resolution 在对SwinTransformer进行容量与窗口分辨率缩放过程中，发现以下两个问题：

容量缩放过程中的不稳定问题，见下图：
跨分辨率迁移时的性能退化问题，见下表：

2.Scaling up Model Capacity

在这里插入图片描述
Post Normalization 为缓解该问题，我们提出了Post Normalization(后规范化)：每个残差模块的输出先进行规范化再与主分支进行合并，因此主分支的幅值不会逐层累积。从上面的Figure2可以看到：使用后规范化的模型激活幅值更温和。

Scaled Cosine Attention 在原始自注意力计算过程中，像素对的像素性通过query与key的点积计算。我们发现：在大模型中，某些模块与head的注意力图会被少量像素对主导。为缓解该问题，我们提出了Scaled Cosine Attention(SCA)，公式如下：
在这里插入图片描述

3.Scaling Up Window Resolution

接下来，引入一种log空间连续位置偏置方法以使得相对位置偏置跨窗口分辨率平滑迁移。

Continuous Relative Position Bias 不同于直接对偏置参数直接优化，连续位置偏置方法采用了针对相对坐标的元网络：
在这里插入图片描述
注：G是一个很小的网络
它对任意相对坐标生成偏置参数，因而可以自然地进行任意可变窗口尺寸的迁移。

Log-space Coordinates 当跨大窗口迁移时，有较大比例的相对坐标范围需要外插。为缓解该问题，采用了对数空间坐标：
在这里插入图片描述
通过对数空间坐标，在进行块分辨率迁移时，所需的外插比例会更小。
Table 1则给出了不同位置偏置下的迁移性能对比，可以看到：当向更大窗口尺寸迁移时，对数空间连续位置偏置性能最佳。