利用Pytorch实现Vision Transformer

最新推荐文章于 2024-07-30 10:53:26 发布

Cai Xukun

最新推荐文章于 2024-07-30 10:53:26 发布

阅读量653

点赞数 3

文章标签： pytorch transformer python 人工智能深度学习图像处理

本文链接：https://blog.csdn.net/AdjsWsgz/article/details/131522788

版权

目录

1. 网络整体架构

1.1 Linear Projection of Flattened Patches

1.2 Transformer Encoder

1.2.1 Self-attention

1.2.2 Multi-Head Attention

1.3 MLP Head

2. 利用Pytorch实现Vision Transformer

2.1 Linear Projection of Flattened Patches

2.2 Attention模块

2.3 MLP Block

2.4 Transformer Encoder

2.5 Vision Transformer网络架构

3. 训练结果

1. 网络整体架构

将输入图片分成一个个的patch，假设输入图片的shape为(224, 224, 3)，若按照16×16的大小来划分，划分后会得到(224/16)*(224/16) = 196个patch，每个patch的shape为(16, 16, 3)；
将patch输入到Embedding层（Linear Projection of Flattened Patches），得到一个个的输出向量（称为token），即(16, 16, 3) -> (768)；
在每tokens前加（concat）一个新的用于分类的[class]token（参考BERT网络），即cat((1, 768), (196, 768)) -> (197, 768)；
在每一个token上加（add）一个Position Embedding（一个可训练的参数，对应图中的0~9），由于是add操作，Position Embedding的shape和tokens的shape是相同的，即tokens.shape(197, 768) =Position Embedding.shape(197, 768) ；
将tokens（包含[class]token）+Position Embedding输入到Transformer Encoder中，只提取[class]token对应的输出，通过MLP Head得到分类结果。

综上整个模型结构分为三部分：

Linear Projection of Flattened Patches(Embedding层)
Transformer Encoder
MLP Head（最终用于分类的层结构）

1.1 Linear Projection of Flattened Patches

标准的Transformer模块要求的输入是token序列，即(num_token, token_dim)，在代码实现时，用一个卷积层（kernel_size为16×16，stride=16，卷积核个数为768）来实现，再将H和W维度展平此时shape变化为(224, 224, 3) -> (14, 14, 768) -> (196, 768)；

再拼接一个可训练的参数作为[class]token，cat((1, 768), (196, 768)) -> (197, 768)；

再叠加（add）Position Embedding，(196, 768) -> (196, 768)。

1.2 Transformer Encoder

首先通过一个Layer Norm；再通过一个Multi-Head Attention，Multi-Head Attention原理如下：

1.2.1 Self-attention

假设input是图中的 $x^{1}-x^{4}$ ，每个input先乘上一个矩阵 $W$ ，得到向量 $a^{1}-a^{4}$ ，每个向量分别乘上 $W_{q},W_{k},W_{v}$ ，以向量 $a_{1}$ 为例，分别得到3个不同的向量 $q^{1},k^{1},v^{1}$ 。

接下来利用每个 $q^{i}$ 对每个 $k^{i}$ 做attention（即这2个向量有多接近），以 $q^{1}$ 和 $k^{1}$ 为例，利用以下公式：

$\alpha _{i,j}=\frac{q^{i}\cdot k^{j}}{\sqrt{d}}$

计算得到 $\alpha _{1,1}$ ，其余同理，其中 $d$ 是 $q$ 和 $k$ 的维度，相当于归一化的效果，随后把计算得到的 $\alpha _{1,j}$ 做softmax操作：

$\hat{\alpha}_{1,j}=\frac{e^{\alpha _{1,j}}}{\sum _{j}e^{\alpha _{1,j}}}$

经过softmax操作得到 $\hat{\alpha }_{1,j}$ ，将其和所有的 $v^{i}$ 值相乘，将4个结果加起来得到 $b^{1}$ ，即：

$b^{1}=\sum_{j}\hat{\alpha }_{1,j}v^{i}$

同样地，可以计算出 $b_{2},b_{3},b_{4}$ ：

将上述过程用矩阵表示：

输入矩阵 $I=\left [ a^1,a^2,a^3,a^4 \right ]$ ，分别用 $W^q,W^k,W^v$ 与其相乘得到 $Q,K,V$ ，其每一列代表一个 $q,k,v$ ，Self-attention的矩阵计算过程如下：

1.2.2 Multi-Head Attention

上图为两个head，即由 $a^i$ 生成的 $q^i$ 进一步乘以两个转移矩阵变为 $q^{i,1}$ 和 $q^{i,2}$ ，其他的 $q$ 以及 $k$ 和 $v$ 同理；然后 $q^{i,1}$ 先和 $k^{i,1}$ 做attention，再和 $k^{j,1}$ 做attention，将得到的两个 $\alpha$ 做softmax操作，得到两个 $\hat{\alpha }$ 后分别与 $v^{i,1}$ 和 $v^{j,1}$ 相乘相加得到 $b_{i,1}$ ；同理可以得到 $b_{i,2}$ ：

此时我们将 $b_{i,1}$ 和 $b_{i,2}$ concat起来，然后利用一个变换矩阵调整：

再经过一个Dropout层或者DropPath层；再与捷径分支进行add操作；再经过一个Layer Norm层；经过MLP Block；经过一个Dropout层或者DropPath层；再与捷径分支进行add操作得到输出。MLP Block结构如下：

1.3 MLP Head

该模块当数据集很大时是由Linear+tanh激活函数+Linear组成，若使用较小的数据集则只用一个Linear即可；注意只提取出[class]token生成的对应结果送入到MLP Head就行。

以ViT-B/16为例，网络整体结构如下：

其中的Pre-Logits在数据集较大时才使用，为tanh激活函数+Linear。