品论文：VISION TRANSFORMER (VIT)_vit-transformer中伪标签概率分布-CSDN博客

本文链接：https://blog.csdn.net/qq_41475067/article/details/117413086

今天上午看了个论文，每当遇到全英文论文的时候，就会发现自己的英文水平属实是太一般，但是看完这篇论文确实是感触良多！！！

论文标题：《AN IMAGE IS WORTH 16X16 WORDS: TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE》
论文作者：Google Research, Brain Team
论文发布时间：2020年11月22日
论文摘要概述：
作者在摘要中表达的信心意思就是：transformer架构目前已经在自然语言处理任务中广泛应用且效果显著，但是在视觉领域目前应用不多。作者论文中所提出的《Vision Transformer (ViT)》在ImageNet, CIFAR-100, VTAB等数据集中取得了不错的成绩，对比表名transformer架构也可以在视觉领域取得优异成绩，且与先进的卷积网络相比，训练所需的计算资源大大减少。

在这里插入图片描述

核心就是介绍VIT模型在多个数据集上取得的成绩，例如在ImageNet上的正确率为88.55%，在ImageNet- real上为90.72%，在CIFAR-100上为94.55%，77.63%在19个任务的VTAB套件中。

Fine-tuning code and pre-trained models are available at https://github.com/google-research/vision_transformer

在这里插入图片描述

在这里插入图片描述

在VIT模型的设计中，尽量保持了transformer架构的原汁原味

在这里插入图片描述

在接下来论文阐述的相关数据上，核心意思就是，将高分辨率的图像，分为N个patch图像块，然后Flatten拉伸成为1维向量，可以理解为reshape成类文本数据，例如将3x3的图像reshape成1x9形式，然后在进入embedding层之后进行patch embedding（个人理解此处类似于NLP中的token embedding操作），Position embedding主要是根据各个patch块在原始图像中的位置，对预训练的位置嵌入进行2D插值来记录对应的时序关系；之后数据被送入transformer Encoder结构和MLP head部分最终得到对应分类的概率分布；