深度学习——ViT：an image is worth 16x16 words: transformers for image recognition at scale

最新推荐文章于 2025-01-19 16:25:45 发布

菜到怀疑人生

最新推荐文章于 2025-01-19 16:25:45 发布

阅读量1.1k

点赞数 2

分类专栏：深度学习

本文链接：https://blog.csdn.net/dhaiuda/article/details/115563300

版权

深度学习专栏收录该内容

58 篇文章

订阅专栏

文章目录

前言
ViT的结构
- ViT的输入
- 分类使用的feature vector
实验

前言

ViT使用Transformer的Encoder做图像识别，这篇文章发表在ICLR 2021上，是一片oral文章，具体可见我是链接

其实个人看完transformer后，感觉Transformer更像是一个是一个广义卷积神经，Q、K、V矩阵完全可以看成由多个卷积堆叠在一起组成，只是相比于CNN，Transformer在网络的浅层就通过注意力机制建立了全局视野，其实完全可以尝试在CNN的浅层施加注意力机制，从而建立全局视野。

值得注意的是，论文只给出了在大型数据集上pretrain，在下游数据集上finetune的结果，并没有给出从零训练Transformer的结果，同时这篇论文也给出了Transformer在图像识别上表现出的一些非常有意思的性质。

阅读本文前，请确保自己了解Transformer的结构，本文不会过多介绍Transformer的结构，有兴趣请浏览点我

ViT的结构

模型总体架构
在这里插入图片描述

ViT的输入

如上图所示，对于模型输入而言，ViT将图像分为一个个不相交的patch，每个patch都是一个二维矩阵，ViT将其reshape成一组一维向量 ${x_1,x_2,...,x_N\}$ ，接着每个一维向量输入到一个单层全连接层神经网络中（所有patch共用一个MLP），得到一组序列 ${x_1E,x_2E,...,x_pE\}$ ，其中E为单层全连接层神经网络的参数（可以看成是一个矩阵），对应上图标有1、2、3…的不标准矩形，除了上述序列外，ViT还添加了一个可学习的序列 $x_{class}$ ，输入模型的序列为 ${x_{class},x_1E,x_2E,...,x_pE\}$ ，上述序列在添加一个可学习的position embedding，作为Transformer Encoder的输入，ViT的position embedding与Transformer不太一致，原Transformer的position embedding不是可学习的，ViT这么做，一方面是相对于文本数据，图像序列的相对位置关系通常难以人为设定，另一方面，可以增加模型的灵活性

分类使用的feature vector

Transformer Encoder的输出是一个序列，ViT使用这组序列中的首个feature vector，作为分类器的输入

实验

实验部分主要探索了ViT在大数据集上预训练，在下游数据上finetune的实验结果，并没有直接report在下游数据直接训练的结果，并且ViT预训练用到的数据越多，性能越好。

此处挑一个比较有意思的结果，如下图所示
在这里插入图片描述

作者计算了每一层，mutil-head attention之间的attention distance，作者没解释attention distance是如何计算的，只是说这个指标可以等价于CNN中的感受野，上图横坐标表示网络深度，纵坐标表示Mean attention distance，即多次实验取平均的结果，attention distance越大，表示感受野越大，可以看到，Transformer的浅层就已经建立了很大的感受野，而CNN中，大的感受野只有在网络的深层才可以建立，这是两者的区别