CVPR2021 Swin Transformer: Hierarchical Vision Transformer using Shifted Windows

最新推荐文章于 2025-02-10 20:16:42 发布

smile909

最新推荐文章于 2025-02-10 20:16:42 发布

阅读量889

点赞数 3

分类专栏： CVPR 2021

本文链接：https://blog.csdn.net/smile909/article/details/115273818

版权

Swin Transformer是一种新的Transformer骨干网络，适用于计算机视觉任务，解决了Transformer在处理图像时的尺度变化和计算复杂度问题。通过分层特征映射和线性计算复杂度设计，它能进行密集预测，适用于图像分类、目标检测和语义分割等任务，且在多项指标上超越了先前的SOTA模型。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

动机

1、一个跨计算机视觉和自然语言处理的统一体系结构将有利于两个领域的研究，因为它将促进虚拟信号和文本信号的联合建模，并且两个领域的建模知识可以更深入地共享。

计算机视觉中的建模一直由卷积神经网络（CNNs）主导。自然语言处理(NLP)中的网络体系结构的发展走了一条不同的道路，今天流行的体系结构是Transformer。在这篇论文中，试图扩展Transformer的适用性，使其能够像NLP和CNN在视觉中的应用一样，成为计算机视觉的通用骨干网络。

2、从语言到视觉转换的挑战来自于这两个领域之间的差异，例如视觉实体的尺度变化很大，图像中的像素比文本中的词分辨率高。

方法

在这里插入图片描述
为了克服这些问题，提出了一种通用的Transformer骨干，称为Swin Transformer，它构造层次化的特征映射，并且具有与图像大小成线性关系的计算复杂度。如图1(a)所示，Swin Transformer从小尺寸的图片块（用灰色勾勒）开始，逐渐合并更深的Transformer层中的相邻图片块，从而构建了一个层次化的表征。有了这些层次特征映射，SwinTransformer模型可以方便地利用先进的技术做密集预测，如特征金字塔网络(FPN)或U-Net。线性计算复杂度是通过在分割图像（红色轮廓）的非重叠窗口内局部计算自注意力来实现的。每个窗口中的图片块数量是固定的，因此复杂度与图像大小成线性关系。这些优点使Swin Transformer适合作为各种视觉任务的通用主干，而以前基

最低0.47元/天解锁文章