ViT ——AN IMAGE IS WORTH 16X16 WORDS:TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE(论文阅读笔记)

最新推荐文章于 2024-09-02 15:47:52 发布

酉意铭

最新推荐文章于 2024-09-02 15:47:52 发布

阅读量3.1k

点赞数

分类专栏：算法文章标签： ViT transformer

本文链接：https://blog.csdn.net/weixin_40671425/article/details/121457772

版权

算法专栏收录该内容

32 篇文章 2 订阅

订阅专栏

ViT 是Google团队于2021年发表在ICLR上的paper，

论文链接：https://arxiv.org/abs/2010.11929

摘要

虽然 Transformer 架构已成为自然语言处理任务事实上的标准，但其在计算机视觉中的应用仍然有限。在视觉中，注意力要么与卷积网络结合使用，要么用于替换卷积网络的某些组件，同时保持其整体结构不变。我们表明，这种对 CNN 的依赖是不必要的，直接应用于图像块序列的纯transformer可以在图像分类任务上表现得非常好。当在大量数据上进行预训练并转移到多个中小型图像识别基准（ImageNet、CIFAR-100、VTAB 等）时，视觉transformer (ViT) 与最先进的模型相比获得了SOTA结果，同时需要更少的计算资源来训练。

1 引言

基于self-attention的架构，尤其是 Transformer（Vaswani 等，2017），已成为自然语言处理 (NLP) 的首选模型。主要方法是在大型文本语料库上进行预训练，然后在较小的特定任务数据集上进行微调（Devlin 等，2019）。由于 Transformers 的计算效率和可扩展性，训练具有超过 100B 参数的前所未有的模型成为可能（Brown 等人，2020 年；Lepikhin 等人，2020 年）。随着模型和数据集的增长，仍然没有表现出饱和的迹象。

然而，在计算机视觉中，卷积架构仍然占主导地位（LeCun 等人，1989 年；Krizhevsky 等人，2012 年；He 等人，2016 年）。受 NLP 成功的启发，多项工作尝试将类似 CNN 的架构与self-attention相结合（Wang 等人，2018 年；Carion 等人，2020 年），一些工作完全取代了卷积（Ramachandran 等人，2019 年；Wang 等人，2020 年）。 , 2020a)。后一种模型虽然理论上有效，但由于使用了专门的注意力模式，还没有在现代硬件加速器上有效地扩展。因此，在大规模图像识别中，经典的 ResNet-like 架构仍然是最先进的（Mahajan 等，2018；Xie 等，2020；Kolesnikov 等，2020）。

受 NLP 中 Transformer 成功的启发，我们尝试将标准 Transformer 直接应用于图像，并进行尽可能少的修改。为此，我们将图像拆分为patches，并提供这些patches的线性embeddings序列作为 Transformer 的输入。在 NLP 应用程序中，图像patches的处理方式与tokens（单词）相同。我们以监督方式训练图像分类模型。

当在没有强正则化的中型数据集（如 ImageNet）上进行训练时，这些模型产生的准确率比同等大小的 ResNet 低几个百分点。这种看似令人沮丧的结果可能是意料之中的：Transformers 缺乏 CNN 固有的一些归纳偏差，例如平移等方差和局部性，因此当在数据量不足的情况下训练时不能很好地泛化。

但是，如果模型在更大的数据集（14M-300M 图像）上训练，图片会发生变化。 我们发现大规模训练胜过归纳偏差。我们的 Vision Transformer (ViT) 在经过足够规模的预训练并转移到具有较少数据点的任务时获得了出色的结果。当在公共 ImageNet-21k 数据集或内部 JFT 300M 数据集上进行预训练时，ViT 在多个图像识别基准上接近或击败了最先进的技术。特别是，最佳模型在 ImageNet 上的准确率达到了 88.55%，在 ImageNet RealL上达到了 90.72%，在 CIFAR-100 上达到了 94.55%，在 19 个任务的 VTAB 套件上达到了 77.63%。（ViT 需要在大型数据集上训练才能获得更好的结果，在中小型数据集上的训练效果不如CNN模型）。

2 相关工作

transformer是由 Vaswani 等人提出的。 (2017) 用于机器翻译，并已成为许多 NLP 任务中最先进的方法。基于大型 Transformer 的模型通常在大型语料库上进行预训练，然后针对手头的任务进行微调：BERT（Devlin 等人，2019 年）使用去噪自监督预训练任务，而 GPT 工作线使用语言建模作为其预训练任务（Radford 等人，2018 年；2019 年；Brown 等人，2020 年）。

对图像的自注意力的应用将要求每个像素关注每个其他像素。由于成本和像素数量的二次成正比，这不能扩展到实际的输入大小。因此，为了在图像处理的上下文中应用 Transformer，过去已经尝试了几种近似方法。帕尔马等人。 (2018) 仅在每个查询像素的局部邻域而不是全局应用自注意力。这种局部multi-head点积自注意力块可以完全替代卷积（Hu et al., 2019; Ramachandran et al., 2019; Zhao et al., 2020）。在另一项工作中，稀疏transformer（Child et al., 2019）对全局自注意力采用可扩展的近似，以便适用于图像。缩放注意力的另一种方法是将其应用于不同大小的块 (Weissenborn et al., 2019)，在极端情况下仅沿单个轴 (Ho et al., 2019; Wang et al., 2020a)。许多这些专门的注意力架构在计算机视觉任务上表现出有希望的结果，但需要在硬件加速器上有效地实施复杂的工程。

与我们最相关的是 Cordonnier 等人的模型(2020)，它从输入图像中提取大小为 2 × 2 的 patches 并在顶部应用全自注意力。该模型与 ViT 非常相似，但我们的工作进一步证明，大规模预训练使 vanilla Transformer 与最先进的 CNN 可竞争（甚至更好）。此外，Cordonnier 等人。 (2020) 使用 2 × 2 像素的小patch size，这使得模型仅适用于小分辨率图像，而我们也处理中等分辨率图像。

人们对将卷积神经网络 (CNN) 与self-attention形式相结合也很感兴趣，例如通过增强用于图像分类的特征图（Bello 等人，2019 年）或通过使用self-attention进一步处理 CNN 的输出，例如用于物体检测（Hu et al., 2018; Carion et al., 2020）、视频处理（Wang et al., 2018; Sun et al., 2019）、图像分类（Wu et al., 2020）、无监督物体发现（Locatello 等人，2020）或统一文本视觉任务（Chen 等人，2020c；Lu 等人，2019；Li 等人，2019）。

最近的另一个相关模型是图像 GPT（iGPT）（Chen 等人，2020a），它在降低图像分辨率和色彩空间后将 Transformer 应用于图像像素。该模型以无监督的方式作为生成模型进行训练，然后可以对生成的表示进行微调或线性探测以提高分类性能，在 ImageNet 上实现 72% 的最大准确率。

我们的工作增加了越来越多的论文集，这些论文用比标准 ImageNet 数据集更大的尺度探索图像识别。使用额外的数据源可以在标准基准上获得最先进的结果（Mahajan 等人，2018 年；Touvron 等人，2019 年；Xie 等人，2020 年）。此外，Sun 等人。 (2017) 研究了 CNN 性能如何随数据集大小而变化，Kolesnikov 等人。 (2020); 乔隆加等人。 (2020) 从 ImageNet-21k 和 JFT-300M 等大规模数据集对 CNN 迁移学习进行实证探索。我们也关注后两个数据集，但训练 Transformers 而不是之前工作中使用的基于 ResNet 的模型。

3 方法

在模型设计中，我们尽可能地遵循原始 Transformer（Vaswani 等，2017）。这种有意简单设置的优势在于，可扩展的 NLP Transformer 架构及其高效实现几乎可以开箱即用。

3.1 视觉Transformer(ViT)

该模型的概述如图 1 所示。标准 Transformer 的输入是一维标记嵌入序列（sequence of token embeddings）。为了处理 2D 图像，我们将图像 reshape为一系列展平的 2D patches ，其中 (H, W ) 是原始图像的分辨率，C 是通道数，(P, P ) 是每个图像patch的分辨率，是patches数目，它也用作 Transformer 的有效输入序列长度。 Transformer 在其所有层中使用恒定的潜在向量大小 D，因此我们将patches展平并使用可训练的线性投影映射到 D 维（方程 1）。我们将此投影的输出称为patch embeddings。

图 1：模型概述。我们将图像分割成固定大小的patches，线性嵌入每个patch，添加位置embeddings，并将结果向量序列（sequence of vectors）提供给标准的 Transformer encoder。为了执行分类，我们使用向sequence添加额外的可学习“分类token”的标准方法。 Transformer encoder受到 Vaswani 等人的启发。 (2017)。

与 BERT 的 [class] token类似，我们在嵌入patches序列 (sequence of embedded patches
,) 中添加了一个可学习的embeddings，其在 Transformer encoder () 的输出端的状态用作图像表示 y（方程 4） . 在预训练和微调期间，分类头都连接到。分类头由带有一个隐藏层的 MLP 在预训练时实现，在微调时由单个线性层实现。

position embeddings被添加到patch embeddings中以保留位置信息。我们使用标准的可学习一维position embeddings，因为我们没有观察到使用更高级的二维感知position embeddings（附录 D.4）带来的显着性能提升。得到的embeddings向量序列作为encoder的输入。

Transformer encoder（Vaswani 等人，2017 年）由multi-head self-attention（MSA，参见附录 A)和 MLP blocks（方程 2、3）的交替层组成。在每个块之前应用layerNorm (LN)，在每个块之后应用残差连接（Wang 等人，2019 年；Baevski 和 Auli，2019 年）。

归纳偏置：我们注意到 Vision Transformer 比 CNN 具有更少的特定于图像的归纳偏差。在 CNN 中，局部性、二维邻域结构和平移等效性被传递到整个模型的每一层中。 在 ViT 中，只有 MLP 层是局部和平移不变的，而self-attention层是全局的。二维邻域结构的使用非常谨慎：在模型开始时通过将图像切割成patches，并在微调时调整不同分辨率图像的position embeddings（如下所述）。除此之外，初始化时的position embeddings不携带有关patches的 2D 位置的信息，patches之间的所有空间关系都必须从头开始学习。

混合架构：作为原始图像patches的替代方案，输入序列可以由 CNN 的feature maps形成（LeCun 等，1989）。在这个混合模型中，patch embedding投影 E（方程 1）应用于从 CNN featuremap中提取的patches。作为一种特殊情况，patch 的空间大小可以为 1x1，这意味着输入序列是通过简单地将feature maps的空间维度展平并投影到 Transformer 维度来获得的。如上所述添加了分类输入embedding和position embeddings。

3.2 fine-tuning和更大的分辨率

通常，我们在大型数据集上预训练 ViT，并对（较小的）下游任务进行微调。为此，我们移除了预训练的预测头并附加了一个零初始化的 D × K 前馈层，其中 K 是下游类的数量。以比预训练更高的分辨率进行微调通常是有益的（Touvron 等人，2019 年；Kolesnikov 等人，2020 年）。 当提供更高分辨率的图像时，我们保持patches的大小相同，这会导致更大的有效序列长度。 Vision Transformer 可以处理任意序列长度（取决于内存限制），但是，预训练的position embeddings可能不再有意义。因此，我们根据它们在原始图像中的位置对预训练的position embeddings执行 2D 插值。请注意，此分辨率调整和patch提取是将有关图像 2D 结构的归纳偏差手动注入 Vision Transformer 的唯一点。

4 实验

我们评估了 ResNet、Vision Transformer (ViT) 和混合模型的表征学习能力。为了了解每个模型的数据要求，我们对不同大小的数据集进行了预训练，并评估了许多基准任务。在考虑预训练模型的计算成本时，ViT 表现非常出色，以较低的预训练成本在大多数识别基准上达到了最先进的水平。最后，我们使用自监督进行了一个小实验，并表明自监督的 ViT 对未来充满希望。

4.1 搭建

数据集：为了探索模型的可扩展性，我们使用了 ILSVRC-2012 ImageNet 数据集，包含 1k 类和 1.3M 图像（我们在下文中将其称为 ImageNet），其超集 ImageNet-21k 具有 21k 类和 14M 图像（Deng et al., 2009 ) 和 JFT (Sun et al., 2017) 具有 18k 类和 303M 高分辨率图像。我们去重预训练数据集 w.r.t. 遵循 Kolesnikov 等人的下游任务的测试集。 (2020)。我们将在这些数据集上训练的模型转移到几个基准任务：原始验证标签上的 ImageNet 和清理过的 RealL 标签（Beyer 等人，2020）、CIFAR-10/100（Krizhevsky，2009）、Oxford-IIIT Pets （Parkhi 等，2012）和 Oxford Flowers-102（Nilsback & Zisserman，2008）。对于这些数据集，预处理遵循 Kolesnikov 等人(2020)。

我们还评估了 19-task VTAB 分类套件（Zhai 等人，2019b）。 VTAB 评估到不同任务的低数据传输，每个任务使用 1000 个训练示例。任务分为三组：自然 - 像上述任务、宠物、CIFAR 等。专业 - 医学和卫星图像，以及结构化 - 需要几何理解（如定位）的任务。

模型变体：我们的 ViT 配置基于用于 BERT 的配置（Devlin 等人，2019 年），如表 1 所述。“Base”和“Large”模型直接从 BERT 中采用，我们添加了更大的“Huge”模型。在下文中，我们使用简短的符号来表示模型大小和输入patch大小：例如，ViT-L/16 表示具有 16×16 输入patch大小的“Large”变体。请注意，Transformer 的序列长度与patch大小的平方成反比，因此patch大小较小的模型在计算上更昂贵。

表1：Vision Transformer 模型变体的详细信息。

对于baseline CNNs，我们使用 ResNet（He 等人，2016 年），但将BN层（Ioffe & Szegedy，2015 年）替换为GN（Wu 和 He，2018 年），并使用标准化卷积（Qiao 等人，2016 年）。 , 2019)。这些修改改进了传输(transfer)（Kolesnikov 等人，2020 年），我们将修改后的模型表示为“ResNet (BiT)”。对于混合体，我们将中间feature maps输入到 ViT 中，patch大小为一个“pixel”。为了试验不同的序列长度，我们要么（i）获取常规 ResNet50 的第 4 阶段的输出，要么（ii）移除第 4 阶段，在第 3 阶段放置相同数量的层（保持总层数），然后取这个扩展阶段3的输出. 选项 (ii) 导致序列长度延长 4 倍（因为分辨率变大了，H/W各扩大一倍），以及更昂贵的 ViT 模型。

训练& fine-tuning：我们使用 Adam (Kingma & Ba, 2015) 训练所有模型，包括 β1 = 0.9, β2 = 0.999，batch size为 4096 并应用 0.1 的高权重衰减，我们发现对所有模型的transfer都很有用（附录 D.1 表明，与常见做法相比，在我们的设置中，Adam 在 ResNets 上的表现略好于 SGD）。我们使用线性学习率warmup和衰减，详见附录 B.1。对于微调，我们使用具有动量的 SGD，batch size为 512，对于所有模型，请参见附录 B.1.1。对于表 2 中的 ImageNet 结果，我们在更高分辨率下进行了微调：ViT-L/16 为 512，ViT-H/14 为 518，并且还使用了 Polyak & Juditsky (1992) 平均，因子为 0:9999 (Ramachandran 等人，2019 年；Wang 等人，2020b)。

Metrics：我们通过小样本或微调精度报告下游数据集的结果。微调精度捕获每个模型在各自数据集上微调后的性能。通过解决将训练图像子集的（冻结）表示映射到 {-1，-1} 的目标向量来正则化最小二乘回归问题来获得少样本精度。该公式使我们能够以封闭形式恢复精确解。尽管我们主要关注微调性能，但有时我们会使用线性小样本精度进行快速的动态评估，而微调的成本太高。

4.2 和SOTA的比较

我们首先将我们最大的模型——ViT-H/14 和 ViT-L/16 与文献中最先进的 CNN 进行比较。第一个比较点是 Big Transfer (BiT) (Kolesnikov et al., 2020)，它使用大型 ResNet 执行有监督的迁移学习。第二个是 Noisy Student (Xie et al., 2020)，它是一个大型 EfficientNet，在 ImageNet 和 JFT-300M 上使用半监督学习训练，去除了标签。目前，Noisy Student 在 ImageNet 和 BiT-L 上在此处报告的其他数据集上是最先进的。所有模型都在 TPUv3 硬件上训练，我们报告了预训练每个模型所需的 TPUv3-core-days 数，即用于训练的 TPU v3 核数（每个芯片 2 个）乘以训练时间在几天。

结果如表2所示。在 JFT-300M 上预训练的较小 ViT-L/16 模型在所有任务上都优于 BiT-L（在同一数据集上预训练），同时训练所需的计算资源要少得多。更大的模型 ViT-H/14 进一步提高了性能，尤其是在更具挑战性的数据集——ImageNet、CIFAR-100 和 VTAB 套件上。有趣的是，与现有技术相比，该模型进行预训练的计算量仍然要少得多。然而，我们注意到预训练效率可能不仅受架构选择的影响，还受其他参数的影响，例如训练scheduler、optimizer、权重衰减等。我们提供了不同架构的性能与计算的受控研究第 4.4 节。最后，在公共 ImageNet-21k 数据集上预训练的 ViT-L/16 模型在大多数数据集上也表现良好，同时预训练所需的资源更少：它可以使用标准云 TPUv3 进行训练，大约 30天。

表2：在流行的图像分类基准上与最先进的技术进行比较。我们报告了三个微调运行的平均精度的平均值和标准偏差。在 JFT-300M 数据集上预训练的 Vision Transformer 模型在所有数据集上都优于基于 ResNet 的baseline，同时预训练所需的计算资源要少得多。在较小的公共 ImageNet-21k 数据集上预训练的 ViT 也表现良好。 ∗Touvron 等人报告的结果略有改善 88.5%。 (2020)。

图 2 将 VTAB 任务分解为各自的组，并在此基准测试中与之前的 SOTA 方法进行比较：BiT、VIVI——在 ImageNet 和 Youtube 上联合训练的 ResNet（Tschannen 等人，2020）和 S4L——监督加 ImageNet 上的半监督学习（Zhai 等人，2019a）。 ViT-H/14 在Natural和结构化任务上优于 BiT-R152x4 和其他方法。在 Specialized 上，前两个模型的性能相似。

图2：VTAB 在Natural、specialized和结构化任务组中的表现细分。

4.3 预训练数据要求

Vision Transformer 在大型 JFT-300M 数据集上进行预训练时表现良好。视觉的归纳偏差比 ResNet 少，数据集大小有多重要？我们进行了两个系列的实验。

首先，我们在越来越大的数据集上预训练 ViT 模型：ImageNet、ImageNet-21k 和 JFT-300M。为了提高较小数据集的性能，我们优化了三个基本的正则化参数——权重衰减、dropout 和label smoothing。图 3 显示了微调到 ImageNet 后的结果（其他数据集上的结果见表 5）。当在最小的数据集 ImageNet 上进行预训练时，尽管（中等）正则化，ViT-Large 模型与 ViT-Base 模型相比表现不佳。使用 ImageNet-21k 预训练，它们的性能相似。只有使用 JFT-300M，我们才能看到更大型号的全部优势。图 3 还显示了不同大小的 BiT 模型所跨越的性能区域。 BiT CNN 在 ImageNet 上的表现优于 ViT，但在更大的数据集上，ViT 超过了BiT。

图3：转移到 ImageNet。虽然大型 ViT 模型在小型数据集上进行预训练时的性能比 BiT ResNets（阴影区域）差，但在大型数据集上进行预训练时，它们表现出色。同样，随着数据集的增长，较大的 ViT 变体会超过较小的变体。

其次，我们在 9M、30M 和 90M 的随机子集以及完整的 JFT-300M 数据集上训练我们的模型。我们不对较小的子集执行额外的正则化，并为所有设置使用相同的超参数。这样，我们评估内在模型属性，而不是正则化的效果。但是，我们确实使用了early-stopping，并报告了在训练期间实现的最佳验证准确度。为了节省计算，我们报告了几次线性精度而不是完整的微调精度。图 4 包含结果。 Vision Transformers 在较小的数据集上比 ResNets 过拟合更多，具有可比的计算成本。例如，ViT-B/32 比 ResNet50 稍快；它在 9M 子集上的表现要差得多，但在 90M+ 子集上表现更好。 ResNet152x2 和 ViT-L/16 也是如此。这一结果强化了这种直觉，即卷积归纳偏差对较小的数据集很有用，但对于较大的数据集，直接从数据中学习相关模式就足够了，甚至是有益的。

图4：ImageNet 上的线性小样本评估与预训练大小。 ResNets 在较小的预训练数据集下表现更好，但比 ViT 更早稳定，后者在较大的预训练中表现更好。 ViT-b 是所有隐藏尺寸减半的 ViT-B。

总体而言，ImageNet 上的少量结果（图 4）以及 VTAB 上的低数据结果（表 2）对于极低数据传输似乎很有希望。进一步分析 ViT 的少样本特性是未来工作的一个令人兴奋的方向。

4.4 缩放研究

我们通过对不同模型进行了受控缩放研究评估 JFT-300M 的迁移性能。在这种情况下，数据大小不会限制模型的性能，我们评估每个模型的性能与预训练成本。模型集包括：7个ResNets，R50x1、R50x2、R101x1、R152x1、R152x2，预训练了7个epochs，加上预训练了14个epochs的R152x2和R200x3； 6个Vision Transformers，ViT-B/32、B/16、L/32、L/16，预训练7个epochs，加上L/16和H/14预训练14个epochs；和 5 个混合，R50+ViT B/32、B/16、L/32、L/16 预训练了 7 个 epoch，加上 R50+ViT-L/16 预训练了 14 个 epoch（对于混合，最后的数字模型名称不代表patch大小，而是代表 ResNet 主干中的总下采样率）。

图 5 包含迁移性能与总预训练计算（有关计算成本的详细信息，请参见附录 D.5）。每个模型的详细结果在附录的表 6 中提供。可以观察到一些模式。首先，vision transformer在性能/计算权衡方面主导了 ResNet。 ViT 使用大约少了2 - 4 倍的计算来获得相同的性能（5 个数据集的平均值）。其次，混合模型在较小的计算预算下略胜于 ViT，但对于较大的模型，这种差异消失了。这个结果有些出人意料，因为人们可能期望卷积局部特征处理能够在任何规模下辅助 ViT。第三，Vision Transformers 似乎不会在尝试的范围内饱和，从而推动未来的扩展工作。

图5：不同架构的性能与预训练计算：vision transformer、ResNet 和混合。在相同的计算预算下，Vision Transformers 通常优于 ResNet。对于较小的模型尺寸，Hybrids 改进了纯 Transformer，但对于较大的模型，这种差距消失了。

表6：模型缩放实验的详细结果。这些对应于主要论文中的图 5。我们在几个数据集上展示了传输准确性，以及预训练计算（在 exaFLOPs 中）。

4.5 检查vision transformer

为了开始理解 Vision Transformer 如何处理图像数据，我们分析了它的内部表示。 Vision Transformer 的第一层将flatten的patches线性投影到低维空间中（等式 1）。图 7（左）显示了学习到的embeddings滤波器的顶部主成分。这些组件类似于每个patch内精细结构的低维表示的似是而非的基函数。

图7：左图：ViT-L/32 RGB 值的初始线性embedding滤波器。中：ViT-L/32 的position embedding的相似性。图块显示了具有指定行和列的patches的position embeddings与所有其他patches的position embeddings之间的余弦相似度。右图：按heads和网络深度划分的参与区域大小。每个点显示一层的 16 个head之一的图像之间的平均注意力距离。详见附录 D.7。

投影后，将学习到的position embeddings添加到patch表示中。图 7（中心）显示该模型学习在position embeddings的相似性中对图像内的距离进行编码，即更近的patches往往具有更相似的position embeddings。进一步，出现了行-列结构；同一行/列中的patches具有相似的embeddings。最后，对于较大的网格，正弦结构有时很明显（附录 D）。 position embeddings学习表示 2D 图像拓扑解释了为什么手工制作的 2D 感知embeddings变体不会产生改进（附录 D.4）。

Self-attention 即使是在最低层允许 ViT 整合整个图像的信息。我们调查了网络在多大程度上利用了这种能力。具体来说，我们根据注意力权重计算图像空间中信息整合的平均距离（图 7，右）。这种“注意力距离”类似于 CNN 中的感受野大小。我们发现一些attention heads已经在最底层处理了大部分图像，这表明模型确实使用了全局集成信息的能力。其他注意力head在低层中始终具有较小的注意力距离。在 Transformer 之前应用 ResNet 的混合模型中，这种高度局部化的注意力不太明显（图 7，右），这表明它可能与 CNN 中的早期卷积层具有类似的功能。此外，注意力距离随着网络深度的增加而增加。在全局范围内，我们发现该模型关注与分类语义相关的图像区域（图 6）。

图6：从输出token到输入空间的注意力的代表性示例。详见附录 D.7。

4.6 自监督

Transformers 在 NLP 任务上表现出令人印象深刻的性能。然而，他们的大部分成功不仅源于其出色的可扩展性，还源于大规模的自监督预训练（Devlin 等人，2019 年；Radford 等人，2018 年）。我们还对自监督的masked patch预测进行了初步探索，模仿了 BERT 中使用的masked语言建模任务。通过自监督预训练，我们较小的 ViT-B/16 模型在 ImageNet 上实现了 79.9% 的准确率，比从头开始训练显着提高了 2%，但仍比监督预训练落后 4%。附录 B.1.2 包含更多细节。我们将对对比预训练（Chen 等人，2020b；He 等人，2020 年；Bachman 等人，2019 年；Henaff 等人，2020 年）的探索留给未来的工作。