Transformer多模态领域挖坑之作：ViT模型详细讲解-CSDN博客

本文链接：https://blog.csdn.net/2401_85379281/article/details/142652866

为什么要做VIT？什么是VIT？

基于自注意机制的模型，例如Transformer已经成为NLP的范式，主要方法是在大规模语料库上训练，然后在小规模数据集上微调。

随着模型和数据集的增大，还没出现训练饱和的现象。

因此作者在ImageNet这种中型数据集上进行了训练，但是效果比同等大小的ResNet差了一点，作者认为主要原因是Transformer中没有inductive biases（归纳偏置，即一些先验知识），而Transformer要通过图片自己去学习知识，所以稍微逊色于传统的图像领域的网络是可以预见的。

inductive biases：

locality：即相邻的区域会有相邻的特征
Translation equivalence：不论先平移还是先卷积，最后计算结果都没有区别。

因此作者在更大的数据集上进行训练以后，也取得了非常好的结果。

VIT是怎么做的？

Method部分作者强调了，延续Transformer在NLP领域的成功，不对其构架进行修改直接拿过来使用。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

接下来对着这个论文中的模型图在详细描述一下。

最左侧是将一个图分成了很多patches，通过FC层将其展开，作为一个序列。
分隔开的patches是有顺序的，所以这里也跟NLP中一样为其添加位置编码position embedding。
跟BERT一样，添加extra learnable embedding，也就是<cls>token作为分类头。
获取所有的Embedding之后的处理就是跟NLP领域一样了。
MLP head就是分类头，使用MLP head 和监督信息，使用交叉熵进行模型训练。

如果有空我会补充如何进行维度计算的。挖坑。

公式表述为下：

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Method3.1最后两部分作者是说了一下归纳偏置和混合模型构架的问题。

归纳偏置部分就是再次强调基于原始Transformer构架，几乎没有用到图片中的inductive bias这类先验知识，因此模型较小的时候变现不如CNN很正常。

混合模型构架部分是说，还可以考虑不分成patch，直接用CNN处理，拿最后的特征图丢进Transformer中。（其实还是和前人工作一样……悄咪咪说……

怎么微调？

VIT原文训练的时候是按照224*224的图片，16*16的patches划分的，那如果你图片增大的话，VIT微调就出现了问题。比如你把图片变成240*240，还是按照16*16的patch划分，那最后就是有15*15个patches，那序列长度就从194变为225了。处理方法是子啊原来的位置信息上进行插值处理即可。不过只是暂时性的解决方案，图片像素增加过多的时候插值处理效果会很差，这也是后续需要解决的一个问题。

VIT模型效果

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

也是对应Transformer做了不同大小的VIT。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

模型效果在各种数据集的表现也是吊打一切。

baseline中的BIT-L也在这些数据集上做过，所以拿来做对比。

baseline中的Noisy Student是在ImageNet上表现最好。

最后还列出了算力资源，表示训练2500天TPUv3的Vit-Huge真是经济实惠。

如何获得好用的VIT？

数据集大小

灰色部分是BiT网络（基于ResNet）的效果范围，最底下是ResNet50，顶上是ResNet152。

可以看到使用ImageNet数据集时候，ViT的效果是比不上BiT的，随着数据集增大到ImageNet-21k，ViT的表现已经在BiT表现的范围之内了。而继续增大数据集到JFT-300M，ViT可以实现对BiT的效果碾压，所以如果想训练一个好用的ViT，你至少要保证数据集的大小#能达到ImageNet-21k，要不然你还是用基于CNN的模型吧。

模型内在效果

在这里插入图片描述

因为训练过程中用了dropout.weight decay、label smoothing等。为了证明不是因为这些策略，而是Transformer本身的效果就很好，作者在不同规模的JFT-300M的子集上进行训练，对模型用ImageNet做5-shot，用这些模型特征抽取之后做Logistics Regression。

结果也可以看出训练集很小的时候，ViT效果是不如ResNet的，但是随着模型增大，ViT的表现逐渐超越ResNet，这证明了基于Transformer的模型效果确实就是好。另外作者也认为训练好的ViT更适合小样本任务。

多少算力

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

左侧是五个数据集都测试然后取平均值，右侧是只拿ImageNet测试。数据集都是在JFT-300M上训练的。

可以看到在同样的计算复杂度下，Transformer的表现都优于ResNet，所以证明了训练ViT是真的经济实惠好用。

有趣的是混合模型，也就是橙色的点，用CNN特征图作为Transformer输入的部分。可以看到计算复杂度低的时候，混合模型的效果是最好的，但是随着计算复杂度增加，混合模型逐渐和ViT持平。

（我个人觉得是计算复杂度小的时候，CNN用到的先验信息inductive bias对模型效果做出了贡献，但是随着计算量的增大，Transformer从图片中捕获到了优于先验信息的知识。仅仅是个人观点。）

模型学习效果

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

作者从模型角度可视化了一下。

最左边是对模型Embedding的效果可视化，可以看到抽取的特征和CNN抽取出来的是差不多的，所以作者认为RGB Embedding抽取出来的东西是有效的。

中间是对position Embedding进行可视化，越相关颜色越黄，可以看到最左上角的元素左上角的点最黄，中间的元素中心点最黄，由此表明位置编码确实是获得了对应的位置信息，并且也表明了为什么1D的位置编码就已经很有效了。

最右边的图是随着网络深度的加深，自注意力的平均距离。就是自注意力能关注到的像素点的距离。因为是多头自注意力，所以从最左边开始看，有的自注意力头关注的距离不足20像素，随着网络深度的加深，自注意力能关注到的距离越来越长。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

最后是根据最后一层的注意力可视化原图，可以看到图像确实能注意到与标签相关的元素信息。

自监督训练

作者还想能不能模仿BERT，随机mask掉某些patches进行自监督训练。这个当然有更出名的MAE这个论文了。

消融实验

使用class token还是使用global average-pooling

跟原始Transformer保持一致，使用class token：上边我们说了VIT使用了<cls>token，因为每个token embedding之间都会交互信息，因此作者认为<cls>token学习到了整个图片的特征，也就是直接使用<cls>token即可。
但是原始的图像处理中，最后一步是对特征图做全局平均池化作为最后的图像特征。所以我们也可以对Transformer序列中的每个patch进行全局平均池化来作为最后的输出结果。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传