2021-Swin Transformer: Hierarchical Vision Transformer using Shifted Windows

Swin Transformer通过引入层次结构、局部窗口注意力和移位窗口注意力,解决了Transformer在计算机视觉应用中的尺度变化和计算复杂度问题。在图像分类、检测和分割任务中达到SOTA效果。其核心部分包括窗口多头自注意力层和移位窗口多头自注意力层,允许在不同窗口之间进行信息传递,同时保持较低的计算成本。
摘要由CSDN通过智能技术生成

paper: https://arxiv.org/abs/2103.14030
code: https://github.com/microsoft/Swin-Transformer

将Transformer从NLP领域迁移到CV领域面临两个挑战:
1.与文本相比图像中的视觉实体尺度变化剧烈,NLP的scale是标准固定的,而CV的scale变换范围非常大。
2.图像分辨率高,带来了多尺度建模与计算量巨大的问题,CV中使用Transformer的计算复杂度是图像尺度的平方。

因为存在这两个问题,所以iGPT和ViT都将Transformer用在了图像分类领域,本文
Swin Transformer解决了这两个问题,并且在分类,检测,分割任务上都取得了SOTA的效果。

1.引入CNN中常用的层次化构建方式构建层次化Transformer
2.引入局部思想,对无重合的window区域内进行self-attention计算。
3.SwinTransformer采用了一种Shift-Windows的方法,来引入不同Windows之间的关系。

Swin Transformer的最大贡献是提出了一个可以广泛应用到所有计算机视觉领域的backbone,并且大多数在CNN网络中常见的超参数在Swin Transformer中也是可以人工调整的,例如可以调整的网络块数,每一块的层数,输入图像的大小等等。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值