深度学习第六周

sdulearner

已于 2022-08-19 09:36:55 修改

阅读量437

点赞数

分类专栏：研究生入学培训文章标签：深度学习

于 2022-08-19 09:35:49 首次发布

本文链接：https://blog.csdn.net/Aleckson/article/details/126417418

版权

研究生入学培训专栏收录该内容

6 篇文章 0 订阅

订阅专栏

Vision Transformer

在这里插入图片描述首先将图片分为一个个patches，然后通过Embedding层得到token，输入Transformer Encoder和MLP Head得到最终的输出。
对于标准的Transformer模块，要求输入的是token(向量)序列，即二维矩阵[num_token, token_dim]
在代码实现中，直接通过一个卷积层来实现以ViT-B/16为例，使用卷积核大小为16x16，stride为16，卷积核个数为768
[224, 224, 3]-> [14, 14, 768] -> [196, 768]
在输入Transformer Encoder之前需要加上[class]token以及Position Embedding，都是可训练参数
拼接[class]token: Cat([1, 768], [196, 768]) -> [197, 768]
叠加Position Embedding: [197, 768] -> [197, 768]
在这里插入图片描述 Transformer Encoder是将Encoder Block堆叠L次得到。

Swin Transformer

网络整体框架

在这里插入图片描述与ViT的不同体现在Swin Transformer具有层次性。

Patch Merging

在这里插入图片描述
假设输入Patch Merging的是一个4x4大小的单通道特征图（feature map），Patch Merging会将每个2x2的相邻像素划分为一个patch，然后将每个patch中相同位置（同一颜色）像素给拼在一起就得到了4个feature map。接着将这四个feature map在深度方向进行concat拼接，然后在通过一个LayerNorm层。最后通过一个全连接层在feature map的深度方向做线性变化，将feature map的深度由C变成C/2。通过这个简单的例子可以看出，通过Patch Merging层后，feature map的高和宽会减半，深度会翻倍。