动机
1、一个跨计算机视觉和自然语言处理的统一体系结构将有利于两个领域的研究,因为它将促进虚拟信号和文本信号的联合建模,并且两个领域的建模知识可以更深入地共享。
计算机视觉中的建模一直由卷积神经网络(CNNs)主导。自然语言处理(NLP)中的网络体系结构的发展走了一条不同的道路,今天流行的体系结构是Transformer。在这篇论文中,试图扩展Transformer的适用性,使其能够像NLP和CNN在视觉中的应用一样,成为计算机视觉的通用骨干网络。
2、从语言到视觉转换的挑战来自于这两个领域之间的差异,例如视觉实体的尺度变化很大,图像中的像素比文本中的词分辨率高。
方法
为了克服这些问题,提出了一种通用的Transformer骨干,称为Swin Transformer,它构造层次化的特征映射,并且具有与图像大小成线性关系的计算复杂度。如图1(a)所示,Swin Transformer从小尺寸的图片块(用灰色勾勒)开始,逐渐合并更深的Transformer层中的相邻图片块,从而构建了一个层次化的表征。有了这些层次特征映射,SwinTransformer模型可以方便地利用先进的技术做密集预测,如特征金字塔网络(FPN)或U-Net。线性计算复杂度是通过在分割图像(红色轮廓)的非重叠窗口内局部计算自注意力来实现的。每个窗口中的图片块数量是固定的,因此复杂度与图像大小成线性关系。这些优点使Swin Transformer适合作为各种视觉任务的通用主干,而以前基