CVPR2021 Swin Transformer: Hierarchical Vision Transformer using Shifted Windows

Swin Transformer是一种新的Transformer骨干网络,适用于计算机视觉任务,解决了Transformer在处理图像时的尺度变化和计算复杂度问题。通过分层特征映射和线性计算复杂度设计,它能进行密集预测,适用于图像分类、目标检测和语义分割等任务,且在多项指标上超越了先前的SOTA模型。
摘要由CSDN通过智能技术生成
动机

1、一个跨计算机视觉和自然语言处理的统一体系结构将有利于两个领域的研究,因为它将促进虚拟信号和文本信号的联合建模,并且两个领域的建模知识可以更深入地共享。

计算机视觉中的建模一直由卷积神经网络(CNNs)主导。自然语言处理(NLP)中的网络体系结构的发展走了一条不同的道路,今天流行的体系结构是Transformer。在这篇论文中,试图扩展Transformer的适用性,使其能够像NLP和CNN在视觉中的应用一样,成为计算机视觉的通用骨干网络。

2、从语言到视觉转换的挑战来自于这两个领域之间的差异,例如视觉实体的尺度变化很大,图像中的像素比文本中的词分辨率高。

方法

在这里插入图片描述
为了克服这些问题,提出了一种通用的Transformer骨干,称为Swin Transformer,它构造层次化的特征映射,并且具有与图像大小成线性关系的计算复杂度。如图1(a)所示,Swin Transformer从小尺寸的图片块(用灰色勾勒)开始,逐渐合并更深的Transformer层中的相邻图片块,从而构建了一个层次化的表征。有了这些层次特征映射,SwinTransformer模型可以方便地利用先进的技术做密集预测,如特征金字塔网络(FPN)或U-Net。线性计算复杂度是通过在分割图像(红色轮廓)的非重叠窗口内局部计算自注意力来实现的。每个窗口中的图片块数量是固定的,因此复杂度与图像大小成线性关系。这些优点使Swin Transformer适合作为各种视觉任务的通用主干,而以前基

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值