(2021.06, iccv) Swin Transformer Hierarchical Vision Transformer using Shifted Windows

Swin-Transformer是一种创新的Transformer模型,它通过在局部窗口内进行注意力操作实现了线性复杂度,并通过移位窗口增强模型表达力。该模型在分类、分割和2D目标检测等任务上表现出色,且速度较快。引入的局部性和相对位置偏置显著提高了性能,同时,通过消融实验验证了设计的有效性。
摘要由CSDN通过智能技术生成

code: https://github.com/microsoft/Swin-Transformer

一、创新点

  1. 引入局部性,在local window里面做attention,把计算量和图片的尺寸限制到线性;merge patch,在深层获得全局性

  1. shift window, 连接不同的local window,提高模型的表达能力;

  1. 在分类,分割,2D框检测等任务上都是SOAT,而且很快

二、精度和速度

相近计算量下,在分类,2D目标检测和语义分割任务上都有明显长点,貌似2D目标检测长点最明显;

另一个感觉是,swin因为引入了局部性,ImageNet也能训练出来;

三、实现

W-MSA: 限制在窗口内的多头注意力机制

SW-MSA:移动窗口后的限制在窗口内的多头注意力机制

relative position bias 如下,通过消融实验可以看到涨点明显。

话说右图的那篇文章和写这篇Swin Transformer的基本上是一批人,所以传承很重要啊。

四、消融实验

五、重要参考文献

Training data-efficient image transformers & distillation through attention

Local Relation Networks for Image Recognition

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值