SwinTransformer网络架构

SwinTransformer

1.原文:
在这里插入图片描述
2.
在这里插入图片描述
3.
在这里插入图片描述
4.
对于不同版本的Swin Transformer模型,这里的C是不一样的
在这里插入图片描述
5.
进行Linear Embedding之后,还对每一个通道进行了Layer Norm
在这里插入图片描述
6.
这两个全部都是依据卷积层实现的
在这里插入图片描述
7.
这里是两个Swin Transformer Blocks,只是这两个一般都是成对去使用的
在这里插入图片描述
8.
这里的多层感知机在Vision Transformer中作者讲过,所以在这次视频中就没有讲了
在这里插入图片描述
9.
这个位置,对于分类网络,其实后面是还有网络结构的,只是在这里并没有画出来
在这里插入图片描述
10.
经过Patch Merging之后特征矩阵的长和宽会减半,通道数会加倍
在这里插入图片描述
11.
11.
在这里插入图片描述在这里插入图片描述
12.
MSA就是transformer中的多头注意力机制,MSA就是特征矩阵的每一个像素都会去计算它的Q,K,V,而每一个像素也都会去和别的像素的K相乘,计算相关的权重,最后乘以相关的V,最后饿到最终的结果。
在这里插入图片描述
W-MSA就是对于每一个小的特征矩阵使用MSA,作者这样做是为了减小计算量。
在这里插入图片描述

W-MSA缺点:窗口之间无法进行信息交互,所以我可以把MDTA和W-MSA弄成两个分支,分别计算细节信息和全局信息,或者使用卷积层和W-MSA弄成两个分支,卷积层计算全局信息,W-MSA计算局部信息。
在这里插入图片描述14.
在这里插入图片描述
15.
为了解决W-MSA不同窗口之间不能通信的缺点,创造了SW-MSA
在这里插入图片描述
在这里插入图片描述
16.

在这里插入图片描述
把上面的矩阵,先向上移动两个像素点,然后再向左移动两个像素点就得到了下面这张特征矩阵
在这里插入图片描述
17.
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
18.

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

这两个结构最终实现的功能是一样的
在这里插入图片描述
21.
以Swin-T举例
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值