ViT：Vision Transformer——论文简述

gongyuandaye

已于 2022-07-15 14:05:35 修改

阅读量499

点赞数

分类专栏：深度学习文章标签： transformer 深度学习 ViT

于 2022-07-14 15:16:06 首次发布

本文链接：https://blog.csdn.net/qq_43680965/article/details/125782229

版权

深度学习专栏收录该内容

24 篇文章 1 订阅

订阅专栏

一、摘要

相关工作：transformer中的向量是512维的，而做图像分类中输入的图片是224×224，用像素点当输入效率太低；用resnet输出的特征图，序列长度14×14；轴向注意力，在H和W上分别做自注意力等等。

将nlp中的transformer模型搬到cv中。
将一张图片（224×224）分成16×16大小的patch（当作nlp中的单词），patch数量是14×14=196。
cnn有 translation equivariance 和 locality 两个归纳偏置，ViT在中等规模的数据集上比不上，但在JFT-300M上预训练后，ViT能获得更好的结果（图像分类）。

二、模型

在这里插入图片描述

X：224×224×3
patch：16×16×3 = 768 = D（向量长度）
patch-num：14×14 = 196
Linear Projection（E）：768×768
X×E = [196×768]×[768×768] = 196×768
拼接额外的[class] embedding = 1×768，从而197×768
（图像特征，最后输出的token接mlp做分类）
再加上position embedding = 1×768，总共197×768的tensor进编码器，出来也是197×768
（1D，可学习，更高维的效果不明显，较少数量的patch之间的相对位置信息，容易学到）