论文:[2103.14030] Swin Transformer: Hierarchical Vision Transformer using Shifted Windows (arxiv.org)
swin transformer主要用于backbone和图像分类。
核心思路如下:
输入(H,W,3)的RGB图,第一层像VIT一样分块输出(H/4,W/4,4C)的特征图。接下来进入金字塔swin transformer。每个分辨率的特征图都在固定窗口内(如7x7)做patch attention,相当于局部attention,然后进行降采样进入下一层。降采样不使用卷积,而是每四个相邻的patch组成一组,在通道上进行扩展,分辨率减半,通道数为原来的四倍,后面再接入通道数减半的全连接层。值得注意的是,每个分辨率中会进行窗口移动,如下图所示,为了实现的是局部窗口之间的信息交互,这是本文的最大亮点。该网络的计算复杂低与图像大小成线性关系,而不是平方关系,更省空间。
关于计算复杂度:
式(1)是建模全局信息tran