1. 四个问题
- 解决什么问题
这篇论文提出了一个新的 Vision Transformer 叫做 Swin Transformer,它可以被用来作为一个计算机视觉领域一个通用的骨干网络。
- 之所以这么说,是因为ViT 在结论的部分指出,他们那篇论文只是做了分类任务,把下游任务比如说检测和分割留给以后的人去探索,所以说在 ViT 出来之后,大家虽然看到了Transformer在视觉领域的强大潜力,但是并不确定Transformer能不能把所有视觉的任务都做掉,所以 Swin Transformer这篇论文的研究动机就是想告诉大家用 Transformer没毛病,绝对能在方方面面上取代卷积神经网络,接下来大家都上 Transformer 就好了
-
用了什么方法解决
-
效果如何
在CV领域大杀四方。所以说在这大半年的时间里,原作者团队就以每个月一篇论文的速度,基本把视觉领域所有的任务都刷了个遍,而且 Swin Transformer 不光应用范围广,效果也非常的炸裂 -
还存在什么问题
虽然前面已经说了很多 Swin Transformer 的影响力啊已经这么巨大了,但其实他的影响力远远不止于此,论文里这种对卷积神经网络,对 Transformer,还有对 MLP 这几种架构深入的理解和分析是可以给更多的研究者带来思考的,从而不仅可以在视觉领域里激发出更好的工作,而且在多模态领域里,相信它也能激发出更多更好的工作
2. 论文介绍
参考Swin Transformer论文精读【论文精读】——文字版