An Empirical Study of Training Self-Supervised Vision Transformers

Wanderer001

已于 2022-02-20 12:00:07 修改

阅读量1.7k

点赞数

分类专栏：计算机视觉文章标签：自监督学习视觉Transformer 训练稳定性对比学习迁移学习

于 2022-02-17 09:18:57 首次发布

本文链接：https://blog.csdn.net/weixin_36670529/article/details/89322770

版权

计算机视觉专栏收录该内容

219 篇文章

订阅专栏

摘要

这篇论文没有描述一种新的方法。相反，考虑到计算机视觉的最新进展，它研究了一个简单、增量但必须知道的基线：视觉Tansformer(ViT)的自监督学习。虽然标准卷积网络的训练方法已经非常成熟和稳健，但ViT的方法仍有待建立，尤其是在训练变得更具挑战性的自监督场景中。在这项工作中，我们回到基础，研究几个基本组成部分对训练自我监督ViT的影响。我们观察到不稳定性是降低精确度的一个主要问题，它可能被表面上的好结果所掩盖。我们揭示这些结果确实是部分失败的，当训练变得更稳定时，它们可以得到改善。我们在MoCo v3和其他几个自我监督框架中对ViT结果进行了基准测试，并在各个方面进行了消融。我们讨论当前的积极证据以及挑战和未决问题。我们希望这项工作能为今后的研究提供有用的数据点和经验。

1、介绍

无监督预训练彻底改变了自然语言处理。在计算机视觉中，非监督/自我监督预训练范例至少在两个方面不同于自然语言处理范例：(i)自然语言处理中的学习者是掩蔽的自动编码器，而在视觉中，最近流行的选择是暹罗网络；(ii)NLP中的主干架构是自注意Transformer，而在视觉中，常见的选择是卷积—然而是非注意的—深度残差网络。为了完成视觉中自我监督学习的大图景，为了缩小视觉和语言之间的预训练方法论的差距，研究这些差异具有科学价值。

这项工作的重点是用视觉上领先的自我监督框架来训练Transformer。鉴于视觉Transformer(ViT)的最新进展，这项研究是一个简单的延伸。与之前使用屏蔽自动编码训练自监督Transformers的工作相反，我们研究了基于暹罗网络的框架，包括MoCo和其他。

与标准卷积网络不同，由于不断的社区努力，其训练实践已经被广泛研究，ViT模型是新的，它们的配方尚未建立。在这项工作中，我们回到基础，研究训练深度神经网络的基本组成部分:批量大小、学习速率和优化器。我们发现在各种情况下，不稳定性是影响自我监督ViT训练的主要问题。

有趣的是，我们观察到不稳定的ViT训练可能不会导致灾难性的失败(例如，发散)；相反，它会导致精度轻微下降(例如，1到3%)。这种程度的退化可能并不明显，除非有更稳定的对应物可供比较。据我们所知，这种现象在训练卷积网络的文献中很少见，我们认为这个问题及其隐藏的退化值得注意。

为了证明不稳定可能带来的危害，我们研究了一个可以在实践中提高稳定性的简单技巧。基于对梯度变化的经验观察，我们冻结ViT中的patch映射层，即我们使用固定的随机patch映射。我们的经验表明，这种技巧可以缓解几个场景中的不稳定性问题，并持续提高准确性。

我们在各种情况下对自我监督的ViT进行基准测试和消融。我们在几个自监督框架中提供ViT结果。我们对结构设计进行消融，并讨论其含义。此外，我们还探索了按比例放大ViT模型，包括非平凡的ViT-Large和ViT-Great——后者的计算量比ResNet-50多40倍。基于这些实验结果，我们讨论了当前的积极证据以及挑战和未解决的问题。

我们报告说，与屏蔽的自动编码相比，使用对比学习框架，自监督Tansformer可以获得很好的结果(表1)。Tansformer的这种行为不同于自然语言处理的现有趋势。此外，作为一个有希望的信号，我们更大的自监督ViT可以实现更好的精度，这与[16]中的ImageNet-supervised ViT不同，后者的精度会随着变大而下降。例如，对于非常大的ViT-Large，在某些情况下，我们的自我监督预训练在迁移学习方面可以优于它的监督预训练对手。这提供了一个概念验证场景，其中需要自我监督的预训练。

总之，我们认为这项研究中的证据、挑战和未解决的问题值得了解，如果自我监督的Tansformer将缩小视觉和语言之间的预训练差距。我们希望我们的数据点和经验将有助于推动这一前沿。

2、相关工作

自监督视觉表示学习：

在计算机视觉中，对比学习在自我监督学习方面越来越成功。方法是学习吸引相似(正)样本和消除不同(负)样本的表示。在某些任务中，来自对比自我监督预训练的表征可以优于其监督对应的表征。

对比学习通常被实例化为暹罗网络的一些形式。最近，一系列工作保留了暹罗结构，但取消了负样本的要求。这些方法的成功表明，通过匹配正样本来学习不变特征至关重要。

Transformers：

Transformers最初是为机器翻译而引入的，后来成为NLP中的主导主干。考虑到语言的非局部性和关系性，长期的自我关注行为使Transformers成为一种有效的工具。

人们不断努力将Transformers刚推广到计算机视觉领域。最近关于视觉Transformers(ViT)的工作极大地推动了这一前沿。ViT纯粹基于Transformer，而不是与非退化(即非1×1)卷积交织。这在很大程度上缩小了NLP和视觉之间的架构差距。ViT在监督学习中实现了令人信服的准确性，尤其是在大规模数据和高容量模型的情况下。鉴于这些特性，我们认为ViT是计算机视觉中自我监督学习的一个必须研究的基线。

视觉的自监督Transformers：

在开创性的工作中，为视觉问题训练自我监督的Transformer通常遵循自然语言处理中的屏蔽自动编码范式(表1)。iGPT遮蔽并重构像素，而中ViT的自监督Transformer遮蔽并重构patch。在这项工作中，我们将重点放在对比/暹罗范式中训练Transformers，在这种范式中，损失没有被定义用于重构输入。

3、MoCo v3

我们引入了一个“MoCo v3”框架来促进我们的研究。MoCo v3是MoCo v1/2的增量改进，我们在简单性、准确性和可扩展性之间取得了更好的平衡。MoCo v3的伪代码在Alg. 1，下述。

按照惯例，我们在随机数据增强下为每幅图像进行两次裁剪。它们由和两个编码器编码，输出向量为 $q$ 和 $k$ ，直观来看， $q$ 的行为就像一个“查询”，学习的目标是检索对应的“关键字”。这被表述为最小化对比损失函数。我们采用信息的形式：

这里是在与 $q$ 相同的图像上的输出，称为 $q$ 的正样本。集由来自其他图像的输出组成，称为q负样本。是 $q$ ， $k$ 的归一化超参数。

在MoCo v3中，我们使用自然共存于同一批中的键。我们放弃了内存队列，我们发现如果该批足够大(例如4096)，则该队列具有递减的增益。通过这种简化，可以通过几行代码实现(1)中的对比损失：参见Alg 1.中的 $ctr(q, k)$ 。我们采用对称损失： $ctr(q1, k2)+ctr(q2, k1)$ 。

我们的编码器由主干(如ResNet、ViT)、映射头和额外的预测头组成；编码器有主干和投影头，但没有预测头。由的移动平均值更新，不包括预测头。

作为参考，我们用ResNet-50 (R50)检查了MoCo v3的精度(详见附录)。下表比较了ImageNet中的线性检测精度：

这里的改进主要是由于额外的预测头和大批量(4096)训练。

4、自监督ViT训练的稳定性

原则上，在对比/暹罗自监督框架中，用ViT主干替换ResNet主干是很简单的。但在实践中，我们遇到的一个主要挑战是训练的不稳定性。

我们观察到不稳定性问题不能简单地用精确的数字来反映。事实上，正如我们将展示的那样，训练“显然很好”，并提供了不错的结果，即使是在潜在的不稳定情况下。为了揭示不稳定性，我们在训练过程中监控kNN曲线(见附录)。以秒为单位。在4.1节中，我们研究基本因素如何影响稳定性。曲线表明训练可以“部分成功”，或者换句话说，“部分失败”。以秒为单位。在4.2节中，我们探索一个可以提高稳定性的简单技巧。结果，在各种情况下提高了精度。

4.1、基本因素的经验观察

Batch size：

[16]中的ViT模型按设计计算量很大(见表2和表3)，大批量训练是大ViT模型的理想解决方案。在最近的自监督学习方法中，大批量也有利于提高精度。图1给出了不同批量的训练曲线。

一批1k和2k产生相当平滑的曲线，线性探测精度为71.5%和72.6%。在这种情况下，由于更多的负样本，更大的批次提高了准确度。4k批次的曲线变得明显不稳定：参见图1中的“下降”。它具有72.2%的线性探测精度。尽管与2k批次相比，这似乎略有下降，但它的精度受到了不稳定性的影响，我们将在下一小节中展示。

6k批次的曲线具有更差的失效模式(图1中的大倾角)。我们假设训练被部分重启并跳出当前的局部最优，然后寻找新的轨迹。因此，训练不会发散，但准确性取决于本地重启有多好。当这种部分失败发生时，它仍然提供了一个明显不错的结果(69.7%)。这种行为对探索性研究是有害的：与容易被注意到的灾难性失败不同，微小的退化可以被完全隐藏。

我们还发现，轻微的不稳定性不会导致明显较大的变化。在我们的许多消融术中，第二次试验运行相同的配置通常会导致0.1到0.3%的微小差异。这也使得难以注意到由不稳定性引起的潜在退化。

LR：

在实践中，学习率往往随着批大小的增加而增大。在本文的所有实验中，我们都采用线性缩放规则：我们设置学习率为lr×BatchSize/256，其中lr为“基”学习率。 Lr是被设置的超参数。在图2中，我们研究了lr的影响。

lr越小，训练越稳定，但容易不适应。在图2中，lr=0.5e-4的准确率比lr=1.0e-4低1.8% (70.4 vs. 72.2)。在这种情况下，精度由拟合和欠拟合决定。大lr训练变得不稳定。从图2中可以看出，在此设置下，lr=1.5e-4的曲线倾角较大，精度较低。在这种情况下，精度是由稳定性决定的。

优化器

默认情况下，我们使用AdamW作为优化器，这是训练ViT模型的常见选择。另一方面，最近的自监督方法是基于LARS优化器进行大批量训练的。在图3中，我们研究了LAMB优化器，它是LARS的AdamW对应物。

给定适当的学习速率(lr=5e-4，图3)，LAMB比AdamW获得稍好的精度(72.5%)。但当lr大于最优值时，精度迅速下降。lr=6e-4和8e-4的LAMB精度分别低1.6%和6.0%。有趣的是，训练曲线依然平滑，但在中间逐渐退化。我们假设，虽然LAMB可以避免梯度的突然变化，但不可靠梯度的负面影响是累积的。

在我们的探索过程中，我们发现，如果lr选择得当，LAMB可以达到与AdamW相当的精度。但是对lr的敏感性使得如果没有额外的lr搜索，很难消除不同的架构设计。因此，我们选择在本文的其他部分使用AdamW。

4.2、提升稳定性的技巧

所有这些实验表明，不稳定性是一个主要问题。接下来，我们描述一个简单的技巧，可以在我们的实验中提高各种情况下的稳定性。

在训练过程中，我们注意到梯度的突然变化(图4中的“尖峰”)会导致训练曲线的“下降”，这是意料之中的。通过比较所有层的梯度，我们观察到梯度尖峰在第一层中出现得更早(patch映射)，并且在最后几层中被几对迭代延迟(见图4)。基于这一观察，我们假设不稳定性在较浅的层中更早发生。受此启发，我们探索在训练期间冻结patch映射。换句话说，我们使用固定的随机patch映射来嵌入patch，这是不学习的。这可以很容易地通过在该层之后应用停止梯度操作来完成。

比较

在图5中，我们展示了可学习的MoCo v3与随机patch投影的结果。随机patch投影使训练稳定，训练曲线更平滑、更好。这种稳定性有利于最终的精度，在lr=1.5e-4时，精度提高了1.7%，达到73.4%。对于较大的lr(0.4%， 0.6%， 1.7%)，改善更大。这个比较证实了训练的不稳定性是影响准确度的主要问题。

除了MoCo，我们发现其他相关方法也可能是不稳定的。图6为ViT在SimCLR和BYOL中的训练曲线。随机块投影提高了SimCLR和BYOL的稳定性，并提高了0.8%和1.3%的准确率。我们还观察到SwAV的不稳定性问题，然而，当它不稳定时，损失发散(NaN)。 Random patch映射通过在不发散的情况下启用相对较大的lr来帮助SwAV，并在使用最大稳定的lr时将其准确性从65.8%提高到66.4%。总之，这个技巧在所有这些自我监督框架中都是有效的。

我们还尝试了BatchNorm (BN) ， WeightNorm(WN) ，或patch映射上的梯度剪辑。我们观察到可学习斑投影层上的BN或WN并没有改善不稳定性，并得到了相似的结果；如果给定一个足够小的阈值，这个图层上的渐变剪辑是有用的，极端情况下会冻结这个图层。

讨论

有趣的是，不需要训练patch投影层。对于标准的ViT补丁大小，补丁投影矩阵是完整的(3通道16×16补丁的768-d输出)或过完整的。在这种情况下，随机投影就足以保留原始patch的信息。

我们注意到，冻结第一层并不会改变架构，实际上它缩小了解决方案空间。这表明根本问题在于优化。这一伎俩缓解了问题，但没有解决问题。如果lr太大，模型仍然会不稳定。第一层不太可能是不稳定的根本原因；相反，这个问题涉及所有层面。第一层更容易单独处理，例如，它是主干中唯一的非Transformer层。我们希望在未来的工作中看到一个更根本的解决方案。

5、实现细节

介绍ViT+MoCo v3的详细信息。附录中描述了更多微妙之处。

优化器

默认情况下，我们使用AdamW和批量大小为4096。我们根据100个epoch的结果搜索lr和重量衰减wd，然后将其应用于较长的训练。我们在40个epoch中采用学习率热身(参见[16]中的“10k步的热身”，表4)。这种长时间的热身有助于缓解不稳定性，尽管所有不稳定的结果都已经伴随着这种热身。热身后，lr遵循余弦衰减计划。

MLP头

投影头是一个3层MLP，在[11]之后。预测头是一个2层MLP。两种MLPs的隐层均为4096-d，均具有ReLU；两个MLPs的输出层都是256-d，没有ReLU。在MoCo v3中，两个MLPs中的所有层都有BN，紧跟SimCLR。 MLP领导BYOL/ swv有不同的BN设计(见附录) 。

损失

我们在[18]的附录之后，将(1)中的对比损失按常数2τ(见Alg. 1)缩放。这个刻度是多余的，因为它可以通过调整lr和wd来吸收。但当lr和wd固定时，这个比例使其对τ值不那么敏感。我们设τ=0.2为默认值。

ViT结构

我们密切遵循[16]的设计。输入补丁大小为16×16或14×14('/16 '或'/14 ')，对于224×224输入，投影后会产生长度为196或256的序列。在序列中加入位置嵌入，并在二维中使用正弦-余弦变量。此序列与一个可学习的类patch连接。然后，按照[16]中的设计，由Transformer块的堆栈对序列进行编码。在最后一个块之后(以及在最后一个LayerNorm[1]之后)的类令牌被视为主干的输出，并且是MLP头的输入。

线性探测

按照通常的做法，我们通过线性探测来评估表示质量。在自我监督的预训练后，我们去除MLP头部并训练一个监督线性分类器冻结特征。我们使用SGD优化器，批量大小为4096， $wd$ 为0，并为每个情况扫描lr。我们在ImageNet训练集中对这个监督分类器进行了90个epoch的训练，只使用随机调整大小的裁剪和翻转增强。我们评估验证集中单作物top-1的准确性。

6、实验结果

在本节中，我们对自我监督的ViT进行基准测试和消融实验。我们在1.28M ImageNet训练集上进行自监督训练，并通过线性探测进行评价。

表2总结了我们研究的ViT配置。 ViT-B/L/H在[16]之后，ViT-S与[42]相似。在消融过程中，我们默认使用ViT-B。

训练时间

我们在谷歌云平台(GCP)中公开可用的TPUs (v3)中训练模型。表3总结了训练时间(每100个epoch)。 100个epoch需要2.1小时训练ViT-B，而我们每次消融通常需要6.3小时(300个epoch)。这是一种具有竞争力的性能，因为它使我们能够简化许多设计决策。 TPU的实现还可以探索ViT-H模型，使用512 TPU每100个epoch需要9.8小时。这是一个巨大的训练规模：对于300个epoch的ViT-H，这相当于约625 TPU·天，或约1.7 TPU·年的训练。

我们还使用PyTorch在GPU中验证了我们的模型。 ViT-B在128个GPU中需要24小时(而在256个TPU中需要2.1小时)。随着设备数量的增加，我们观察到TPU比GPU更有利于扩展。虽然进一步的工程优化可以加快我们的GPU系统，但为了便于研究，我们选择使用TPU系统。

6.1、自监督学习框架

我们在四个框架中对自监督ViT进行基准测试：MoCo v3、SimCLR、BYOL和SwAV。我们在所有情况下都使用相同的随机映射技巧。为了公平比较，我们对每个单独的框架进行了 $lr$ 和 $wd$ 扫描。

表4报告了ViT-S/16和ViT-B/16的结果。MoCo v3在ViT上比其他框架有更好的准确性。这些方法之间的相对精度在ViT-B和R50之间是不同的：见图7。MoCo v3和SimCLR比R50(对角线以上)更有利于ViT-B。

6.2、ViT + MoCo v3的消融

接下来，我们对ViT + MoCo v3系统的设计进行了介绍。我们在所有消融中使用随机patch投影。

位置编码

下表比较了位置嵌入的选择(我们的默认值是sin-cos)：

学习的版本很有效，但并不比sin-cos好。令人惊讶的是，即使没有位置嵌入，模型也能很好地工作(74.9%)。对职位进行编码的能力只占1.6%。我们相信这个数据点揭示了当前模型的优点和局限性。积极的一面是，它表明模型可以通过一组完全置换不变的patch来学习强表示。这类似于词汇袋模型。该模型没有位置归纳偏差。从消极方面来看，这也表明模型没有很好地利用位置，物体的姿态对表征的贡献相对较小。我们希望这一数据点将引起人们对未来研究的关注。

Class token：

下表给出了类令牌[CLS]在ViT中的角色：

如果没有使用[CLS]，全局平均池将在最后一个块之后使用。 ViT在最后一块[16]之后有一个额外的LayerNorm (LN)，如果我们保留这个LN并去除[CLS]，结果会更糟(69.7%)。但如果我们去除LN和[CLS]，结果几乎没有变化(76.3%)。这个比较表明类令牌对于系统的工作不是必需的。它还表明，标准化层的选择可能会有所不同。

MLP头的批归一：

与标准的ResNets不同，ViT模型默认没有BN，因此所有BN层都在MLP头中。下表比较了头部有BN和没有BN的情况：

在移除BN时，我们必须将批大小设为2048，否则它不会收敛。去除BN使精确度降低了2.1%。尽管减少了，这是一个完全没有BN的系统。这一数据点说明BN并不是对比学习工作的必要条件，但适当使用BN可以提高准确性。

预测头：

MoCo v3使用一个预测MLP头根据。下一表将此设计删去：

去除预测MLP头的效果良好，为75.5%。虽然这种额外的头部提高了准确性，但MoCo作为对比方法不需要预测MLP来工作，这与[18,13]中的无负方法不同。

动量编码器：

动量编码器的动量系数m比较如下表所示：

最佳值是m=0.99(我们的默认值)。 m=0的情况类似于SimCLR(加上键上的预测头和停止梯度)，其准确性为74.3%，与SimCLR的(73.9%，表4)相似。动量编码器的使用导致2.2%的增长。

训练的长度：

在下表中，我们报告了vits /B + MoCo v3与训练长度的对比：

较小的ViT-S受益于更长时间的训练，当延长到600个epoch时提高0.9%。这类似于R50的行为，它通常经过800 epoch[10]的训练。但是长时间训练的益处在ViT-B上递减。在这种消融的基础上，我们对更大的ViT-L/H进行了300个epoch的训练(表1)。

6.3、和之前工作的比较

自监督Transformers：

第1节的表1给出了不同ViT模型下的MoCo v3结果，并与最先进的自监督Transformers进行了比较。 iGPT中的屏蔽patch预测都可以归类为屏蔽自编码范式。在相同的线性探测协议和训练数据下，基于MoCo的ViT比iGPT具有更高的精度和更小的模型。 [16]中的掩模patch预测在JFT-300M上进行预训练，在ImageNet中进行端到端微调，我们将其作为参考。

我们的自监督ViT模型在模型较大时具有较高的精度。这与[16]中的监督结果形成对比，在[16]中，当在ImageNet-1k/21k中预先训练时，ViT-L的准确性低于ViT-B。实际上，对于ViT-L，在ImageNet -1k - 4训练时，我们的线性探测自我监督前训练(77.6%)比有监督的(76.53%)要好这些比较表明，自我监督学习作为一般表征学习的工具不太容易过度拟合。

和大型ResNet的比较：

在图8中，我们比较了SimCLR v2和BYOL所报道的最先进的大ResNets。我们注意到SimCLR v2和BYOL都使用动量编码器。我们的基准ViT MoCo(“ViT, MoCo v3”曲线)在小模型的情况下略好于ResNet SimCLR v2，但对于较大的模型来说，信封就变得相当了。带有SK-ResNet(选择性内核[29]，一种注意形式)的SimCLR v2具有更高的信封。 BYOL也有一个更高的信封与更宽的ResNets (1-4×)，并有一个突出的点与更深的ResNet (R200-2×)。

我们注意到这个比较涉及到许多选择的组合。例如，[16]中默认的ViT骨干使用LayerNorm (LN)，而默认的ResNet[21]使用BatchNorm (BN)。这些设计选择可能导致系统性的差距。在我们的初步实验中，我们探索了用BN替代LN在ViT骨干的MLP块(即不包括self-attention块)。我们简单地将其称为“ViT-BN”主干。这将持续导致约1%的改善(见图8)。

在iGPT中，可以通过在像素域使用较长的序列来提高精度。在这里，我们通过将patch大小减小到7×7(图8中的“/7”)来探索更长的序列。这保持了模型大小不变，但将FLOPs增加到~ 6×。可以提高约2 ~ 3%的准确度。在[8]中也观察到使用小块的增益。相比之下，在线性探测协议下，SimCLR v2 (SK-ResNet152-3×)和BYOL (ResNet200-2×)的最佳探测结果分别为79.8%和79.6%。

讨论

自我监督的ViT越大，准确率越高，结果趋于饱和。这与NLP的趋势不同，在NLP中，更大的Transformer学习更好的表示(例如[4])。一个潜在的解决方案是使用更多的数据。饱和也可能是由于现有的基于实例的借口任务[45]的能力有限造成的。可能需要设计更困难的借口任务。

我们的自监督ViT模型与大卷积ResNets是有竞争力的。这表明ViT可以在“更少的归纳偏差”下学习强表征。然而，我们也发现，即使去除唯一的位置归纳偏差(位置嵌入)，准确率也只下降了一点点，这表明在我们的方法中，ViT比卷积网络更少地依赖位置信息。

端对端微调：

表5报告了端到端优化结果。我们使用DeiT代码库及其所有默认设置，除非指定。 MoCo v3使用ViT-B在150 epoch微调时达到83.2%，大大优于DeiT在300 epoch微调时的81.8%。

此外，MoCo v3与ViT-L调优仅100个epoch，下降路径率为0.5时，MoCo v3与ViT-L的比例为84.1%。这个简短的时间表证明了MoCo预训练的有效性。我们还发现DeiT-L在其默认设置下存在分歧，可能需要不同的解决方案。

6.4、迁移学习

在表6中，我们评估迁移学习。我们研究了[16]中的四个下游数据集。我们对模型进行了端到端的微调，同样遵循[16]。

我们的自监督ViT在模型大小从ViT-B增加到ViT-L时具有更好的迁移学习准确性，而当模型大小增加到ViT-H时则趋于饱和。相比之下，[16]中的imagenet监督的ViT从ViT-L开始就会饱和或过度拟合。在这四个数据集中的三个中，我们的自我监督ViT取得了比ImageNet监督的ViT更好的结果。

在这些小数据集中从零开始训练大的ViT模型时，过拟合更为突出：精度一般随ViT的增大而降低。我们还发现，在这些小数据集中，从头开始的ViT结果比它们的ResNet对应结果(c.f .，[10]中的表8)差得多。这表明，如果数据不够，在缺乏归纳偏见的情况下，ViT很难学习表征。自我监督的预训练可以缩小这一差距，并在很大程度上减少小数据集的过拟合。

最后，我们注意到，在大数据集(ImageNet-21k或JFT-300M)中使用有监督的预训练，在转移到这些小数据集时，[16]的ViT结果可能比我们的要好。未来的一项潜在工作是在更大的数据中对大型ViT模型进行自我监督的预训练。这类似于过去几年NLP中无监督预训练的轨迹，即模型和数据集都是按比例放大的。