Transformer之Vision Transformer结构解读

最新推荐文章于 2024-08-19 21:58:17 发布

Soonki

最新推荐文章于 2024-08-19 21:58:17 发布

阅读量746

点赞数 29

分类专栏： Transformer-Based 文章标签： transformer 深度学习人工智能

本文链接：https://blog.csdn.net/Soonki/article/details/140589509

版权

Transformer-Based 专栏收录该内容

7 篇文章 0 订阅

订阅专栏

论文地址
 代码地址

写在前面

什么是Transformer呢？就是把符号向量化为Token，再和位置编码求和或者做阿达玛积，最后送入一定层数的Attention Block构成的Encoder和Decoder，就完成了Transformer的基础功能。

那么，把上述过程，用在图片上面，这就是Vision Transformer，简称ViT

ViT的特点

	CNN	Transformer
作用范围	局部	全局
作用频域	低频	高频
平移不变性	强(有)	弱(无)

正是因为CNN具有以上归纳偏置（这个词不好理解，比如说，一个孩子，第一次见到蛇被吓了一跳，日后遇到类似蛇的绳子，也会被吓一大跳，孩子对这个蛇状东西的认知，就是孩子的归纳偏置，这是一种方法论，而非具体的操作或者认知）的特点，所以在图像方面也就更适合，相对于Transformer，需要的数据相对就会少很多。
以上似乎说的是Transformer用于图像上会有很多缺点，那么就没有优点么？有的，

对图像尺寸的处理更为灵活，不太需要类似CNN哪种dedicated design的卷积核、步长和padding设计，以满足output的尺寸要求；
较强的并行计算能力，不需要类似CNN那样，以Kernel为一个窗口在图上滑动，一个个计算窗口中的卷积值(但这似乎也是个缺点，显然，CNN这样做一定是省计算资源的)；
Transformer可以处理多模态任务，尤其是插入prompt之后，可以在一个网络模型中完成特征提取；
Transformer对全局特征的把握强于CNN(但是这好像也不算一个优点，对于尺度小的目标，就不行了，例如BEV视角中的目标普遍都很小，用ViT效果还是不如CNN)；
Transformer对空间信息的利用会更高一点；

ViT的结构

在这里插入图片描述
ViT和Transformer的步骤是相同的，只不过对Token的处理上会有些许差异，具体如下：

利用nn.Conv2d(kernel_size=patch_size, stride=patch_size)，把图像按照patch_size切割成小块，然后用卷积进行DownSample

这里有一个 $[256, 256, 3]$ 的图片
图片被切分成了 $16 \times 16$ 个小patch，每个patch内拥有 $patch\_size = 16\times 16$ 个像素
送入nn.Conv2d(kernel_size=16, stride=16)，把 $patch\_size = 16\times 16$ 卷成 $patch\_size = 1\times 1$
经过Patch_embedding后，生成一个经过Conv下采样的 $16\times 16$ 个patch的Tokens

生成位置编码Position-Embedding(PE)(详情参考Transformer之位置编码的通俗理解)
上述两个步骤的结果相加，生成一个 $H\times W, C]$ 的向量，作为后面Attention的输入
将上述结果送入多层Transformer的Attention(详情参考Transformer之Attention的通俗理解)，具体结构如下

在这里插入图片描述
如图所示，如果有12层这样的结构，那么这就是 $ViT\_Base$ ，如果有24层，那么就是 $ViT\_Large$ ，一定要注意看别人代码中用的是哪一个ViT，因为对应的Pth预训练文件是不同的。

ViT的Pipeline

按照上面步骤，将ViT组装起来，就是ViT的pipeline

在这里插入图片描述

Soonki

关注

29
点赞
踩
27

收藏

觉得还不错? 一键收藏
0
评论
Transformer之Vision Transformer结构解读

什么是Transformer呢？就是把符号向量化为Token，再和位置编码求和或者做阿达玛积，最后送入一定层数的构成的Encoder和Decoder，就完成了Transformer的基础功能。那么，把上述过程，用在图片上面，这就是Vision Transformer，简称ViT。
复制链接

扫一扫

专栏目录