SwinTransformer网络架构

最新推荐文章于 2024-07-19 17:53:28 发布

QT-Smile

最新推荐文章于 2024-07-19 17:53:28 发布

阅读量811

点赞数 1

分类专栏：深度学习之美文章标签： pytorch

本文链接：https://blog.csdn.net/qq_34848334/article/details/125235678

版权

深度学习之美专栏收录该内容

209 篇文章 25 订阅

订阅专栏

SwinTransformer

1.原文：
在这里插入图片描述
2.

3.

4.
对于不同版本的Swin Transformer模型，这里的C是不一样的

5.
进行Linear Embedding之后，还对每一个通道进行了Layer Norm

6.
这两个全部都是依据卷积层实现的

7.
这里是两个Swin Transformer Blocks，只是这两个一般都是成对去使用的
在这里插入图片描述
8.
这里的多层感知机在Vision Transformer中作者讲过，所以在这次视频中就没有讲了

9.
这个位置，对于分类网络，其实后面是还有网络结构的，只是在这里并没有画出来

10.
经过Patch Merging之后特征矩阵的长和宽会减半，通道数会加倍
在这里插入图片描述
11.
11.

12.
MSA就是transformer中的多头注意力机制，MSA就是特征矩阵的每一个像素都会去计算它的Q,K,V，而每一个像素也都会去和别的像素的K相乘，计算相关的权重，最后乘以相关的V，最后饿到最终的结果。
在这里插入图片描述
W-MSA就是对于每一个小的特征矩阵使用MSA，作者这样做是为了减小计算量。

W-MSA缺点：窗口之间无法进行信息交互，所以我可以把MDTA和W-MSA弄成两个分支，分别计算细节信息和全局信息，或者使用卷积层和W-MSA弄成两个分支，卷积层计算全局信息，W-MSA计算局部信息。
在这里插入图片描述 14.

15.
为了解决W-MSA不同窗口之间不能通信的缺点，创造了SW-MSA

16.