code: https://github.com/microsoft/Swin-Transformer
一、创新点
引入局部性,在local window里面做attention,把计算量和图片的尺寸限制到线性;merge patch,在深层获得全局性
shift window, 连接不同的local window,提高模型的表达能力;
在分类,分割,2D框检测等任务上都是SOAT,而且很快
二、精度和速度
相近计算量下,在分类,2D目标检测和语义分割任务上都有明显长点,貌似2D目标检测长点最明显;
另一个感觉是,swin因为引入了局部性,ImageNet也能训练出来;
三、实现
W-MSA: 限制在窗口内的多头注意力机制
SW-MSA:移动窗口后的限制在窗口内的多头注意力机制
relative position bias 如下,通过消融实验可以看到涨点明显。
话说右图的那篇文章和写这篇Swin Transformer的基本上是一批人,所以传承很重要啊。
四、消融实验
五、重要参考文献
Training data-efficient image transformers & distillation through attention
Local Relation Networks for Image Recognition