ViT论文解读

‘Atlas’

已于 2023-04-24 17:20:32 修改

阅读量3.1k

点赞数 1

分类专栏： Transformer 论文详解文章标签： transformer 计算机视觉 ViT

于 2022-02-12 17:01:39 首次发布

本文链接：https://blog.csdn.net/qq_41994006/article/details/122885519

版权

论文详解同时被 2 个专栏收录

72 篇文章

订阅专栏

Transformer

8 篇文章

订阅专栏

文章目录

创新点
算法
- class token
- 位置编码
实验
- 与SOTA比较
结论

论文: 《An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale》
代码: https://github.com/google-research/vision_transformer

创新点

作者表明在视觉任务上，CNN并不是必须的，Transformer也可以很好的执行分类任务；与CNN SOTA方法相比，ViT使用更少训练资源，取得不错结果；

算法

CNN具有两个归纳偏置：
局部性：比如椅子桌子在一起；
平移不变性；
transformer不具有这些性质，因此当数据量不充足时
，无法很好泛化；但是我们发现大规模训练胜过归纳偏置；最好的模型在 ImageNet 上达到 88.55%，在 ImageNet-ReaL 上达到 90.72%，在 CIFAR-100 上达到 94.55%，
ViT结构如图1所示，
在这里插入图片描述
ViT过程如式1，2，3，4；MSA结构参考Transformer结构解读

ViT标准输入图片为 $C * H * W$ ，将其转化为二维向量 $x_p,x_p\in N\times(P^2\bullet C)，N = HW/P^2$ ，每个Patch经过embedding矩阵 E 转化为 $N * D$ ， $x_{class}$ 表示class token，用于图片分类，纬度为(1,D)， $E_{pos}$ 表示位置编码，防止patch顺序打乱输出结果相同，维度为(N+1,D)，如式1，得到 $z_0\in(N+1,D)$ ；
式2、式3为Transformer结构中Multi-Head self-Attention模块及MLP模块，如图1右侧，得到 $z_l\in(N+1,D)$ ，L表示Layer数；
式4中LN为Linear层，将 $x_L^0$ 的D维向量映射为 $N_{class}$ 维，表示总类别数，其输出为该图预测类别标签；