深度学习之图像分类（十二）Masked Autoencoders Are Scalable Vision Learners（MAE）详解

最新推荐文章于 2024-07-24 21:01:17 发布

哈尔滨张谦蛋

最新推荐文章于 2024-07-24 21:01:17 发布

阅读量1.7k

点赞数 2

分类专栏： transformer 研究生学习-AI 文章标签：深度学习分类机器学习

本文链接：https://blog.csdn.net/m0_46521375/article/details/134145111

版权

研究生学习-AI 同时被 2 个专栏收录

24 篇文章 5 订阅

订阅专栏

transformer

12 篇文章 1 订阅

订阅专栏

Masked Autoencoders Are Scalable Vision Learners

Abstract

本文表明，掩蔽自动编码器（MAE）是一种可扩展的计算机视觉自监督学习器。我们的MAE方法很简单：我们屏蔽输入图像的随机patch，并重建缺失的像素。它基于两个核心设计。首先，我们开发了一种非对称编码器——解码器架构，编码器仅对patch的可见子集（没有掩模标记）进行操作，轻量级解码器从潜在表示和掩模标记重建原始图像。第二，我们发现掩蔽高比例的输入图像，例如75%，产生了重要且有意义的自我监督任务。耦合这两种设计使我们能够高效和有效地训练大型模型：我们加速了训练（3倍或更多）并提高了准确性。我们的可扩展方法允许学习概括良好的高容量模型：例如，在仅使用ImageNet-1K数据的方法中，普通的ViT-Huge模型实现了最佳的准确性（87.8%）。下游任务中的传输性能优于监督预训练，并显示出有希望的缩放行为。自监督训练比有监督的训练在下游任务的性能更加准确。

1. Introduction

深度学习已经见证了不断增长的性能和容量的架构的爆炸式增长[33, 25, 57]。在硬件性能迅速提升的帮助下，现在的模型可以轻松地过拟合一百万张图片[13]，并开始需要数亿张——通常是公众无法访问的——已标记图片[16]。

这种对数据的需求已经在自然语言处理（NLP）中通过自我监督的预训练成功地解决了。基于GPT[47，48，4]中的自回归语言建模和BERT[14]中的屏蔽自动编码的解决方案在概念上很简单：它们删除一部分数据，并学习预测删除的内容。这些方法现在能够训练包含超过1000亿个参数的可推广NLP模型[4]。

掩蔽自动编码器的想法是一种更通用的去噪自动编码器[58]，在计算机视觉中也是自然和适用的。事实上，视觉方面密切相关的研究[59，46]早于伯特。然而，尽管随着BERT的成功，人们对这一想法产生了浓厚的兴趣，但视觉中自动编码方法的进展落后于NLP。我们问：是什么让视觉和语言之间的掩蔽自动编码不同？我们试图从以下角度回答这个问题：

(i) 直到最近，架构是不同的。在视觉领域，卷积神经网络[34]在过去十年中占主导地位[33]。卷积通常在规则的网格上操作，不容易将"指示符"（如掩模标记[14]或位置嵌入[57]）集成到卷积网络中。然而，随着Vision Transformers（ViT）[16]的引入，这种架构上的差距应该不再构成障碍。

自编码器的应用在视觉和语言之间应用差别的原因：

在视觉方面，之前的研究主要集中在卷积网络方面，在通过卷积神经网络实现屏蔽自编码器并不是简单的。需要将MASK和position加入卷积网络的卷积层中，position的实现是相对简单的，但是在卷积神经网络实现掩码的操作时，对于已屏蔽区域，滑动的卷积窗口并不一定能够准确的识别出已屏蔽区域的边界。
上述的情况随着VIT的实现，已经缩小了屏蔽自编码器在视觉和语言方面的差距。
由于视觉任务和语言任务的信息密度不同，在语言任务方面，一句话中的每个单词和模块包含了非常重要的语义信息，所以在进行mask时，过度的mask会使得模型对于一句话的预测产生较大的差异。但是在于视觉任务方面，由于视觉任务中包含着许多的荣誉的像素块，在进行mask时，如果采用较小百分比的mask时，对于包含复杂信息的像素块，不能起到mask的作用，所以对于模型的自监督时非常不利的，所以采用高比例的mask可以实现模型的自监督。
自动编码器的解码器，在重建文本和图像之间起着不同的作用。在视觉中，解码器重建像素，因此其输出比普通识别任务具有更低的语义级别。而在于语言任务中，解码器预测包含丰富语义信息的缺失单词，所以解码器的设计，在对于学习到的潜在表征的语义水平方面起着关键作用。

(ii) 语言和视觉之间的信息密度不同。语言是高度语义且信息密集的人类生成信号。当训练一个模型仅用于预测每个句子中的少量缺失单词时，这个任务似乎会引发复杂的语言理解。相比之下，图像是自然信号，具有严重的空间冗余，例如，缺失的图像块可以从相邻的图像块中恢复，而不需要对部分、对象和场景进行高层次的理解。为了克服这种差异并鼓励学习有用的特征，我们展示了在计算机视觉中一个简单的策略表现良好：对随机图像块进行高比例的遮蔽。这一策略在很大程度上减少了冗余性，并创建了一个需要超越低级图像统计的整体理解的具有挑战性的自监督任务。要对我们的重建任务有一个定性感觉，请参见图2 - 4。

(iii) 自编码器的解码器，在将潜在表示映射回输入时，在重建文本和图像方面发挥不同的作用。在视觉任务中，解码器重建像素，因此其输出比普通的识别任务具有更低的语义水平。这与语言不同，语言中解码器预测的是包含丰富语义信息的缺失单词。虽然在BERT中，解码器可以是简单的（例如一个多层感知器MLP）[14]，但我们发现对于图像，解码器的设计在确定学到的潜在表示的语义水平方面起着关键作用。

图二。ImageNet验证图像的示例结果。对于每个三元组，我们显示掩蔽图像（左）、我们的MAE重建（中）和地面真相（右）。掩蔽率为80%，196个patchs中只剩下39个。附录中有更多的例子。由于在可见patchs上没有计算损失，可见patchs上的模型输出在质量上更差。人们可以简单地用可见的patchs覆盖输出来提高视觉质量。我们有意选择不这样做，这样我们可以更全面地演示该方法的行为。

图三。COCO验证图像的示例结果，使用在ImageNet上训练的MAE（与图2中的模型权重相同）。观察两个最右边的例子的重建，这两个例子虽然不同于基本事实，但在语义上似乎是合理的。

图4。使用MAE重建ImageNet验证图像，MAE以75%的掩蔽率预训练，但应用于具有更高掩蔽率的输入。预测结果与原始图像有明显差异，表明该方法具有推广价值。

在这一分析的基础上，我们提出了一种用于视觉表示学习的简单、有效且可扩展的掩模自编码器（MAE）形式。我们的MAE从输入图像中选择随机区块进行掩模，然后在像素空间中重建缺失的区块。它采用了不对称的编码器-解码器设计。我们的编码器仅在可见的区块子集上操作（不包括掩模标记），而我们的解码器轻量级，并从潜在表示中重建输入，同时包括掩模标记（见图1）。将掩模标记移动到不对称的编码器-解码器中的小解码器中，可以大大减少计算量。在这种设计下，非常高的掩模比例（例如，75%）可以实现双赢的情况：它优化了准确性，同时允许编码器仅处理少部分（例如，25%）的区块。这可以将整体的预训练时间减少3倍或更多，同样减少了内存消耗，使我们能够轻松扩展我们的MAE到大型模型。

我们的MAE学习非常高容量的模型，具有良好的泛化性能。通过MAE的预训练，我们可以在ImageNet-1K上训练像ViT-Large/-Huge [16]这样对数据需求较高的模型，并且在泛化性能上取得了显著的改进。使用普通的ViT-Huge模型，在ImageNet-1K上微调后，我们获得了87.8%的准确度。这超越了以往仅使用ImageNet-1K数据的所有先前结果。我们还对目标检测、实例分割和语义分割的迁移学习进行了评估。在这些任务中，我们的预训练方法取得了比其监督预训练对照组更好的结果，更重要的是，我们观察到通过扩展模型规模可以获得显著的性能提升。这些观察结果与在NLP中的自监督预训练[14, 47, 48, 4]中所见到的情况一致，我们希望这些发现能够使我们的领域探索类似的发展轨迹。

2. Related Work

掩模语言建模以及其自回归对应方法，如BERT [14]和GPT [47, 48, 4]，在自然语言处理（NLP）的预训练中非常成功。这些方法会保留输入序列的一部分，并训练模型来预测被隐藏的内容。这些方法已被证明可以非常好地扩展[4]，并有大量证据表明，这些预训练表示在各种下游任务中具有良好的泛化性能。

自编码是一种经典的学习表示方法。它包括一个编码器，将输入映射到潜在表示，以及一个解码器，用于重建输入。例如，PCA和k-means都是自编码器[29]。去噪自编码器（DAE）[58]是一类自编码器，它会破坏输入信号并学习如何重建原始未被破坏的信号。一系列方法可以被视为在不同破坏情况下的通用DAE，例如，遮蔽像素[59, 46, 6]或去除颜色通道[70]。我们的MAE是一种去噪自编码的形式，但在许多方面与传统的DAE有所不同。

/**--------------------------------------------------***------------------------------------------------------**/

去噪自编码器（Denoising Autoencoder，DAE）和 Masked Autoencoder for Images（MAE）都是自编码器的变种，它们用于学习数据的低维表示。以下是关于它们的介绍以及它们之间的区别：

1. 自编码器（Autoencoder）：

自编码器是一种无监督学习算法，通常由编码器和解码器两个部分组成。编码器将输入数据映射到一个低维表示，然后解码器将该低维表示还原为输入数据。自编码器的目标是最小化输入数据与重构数据之间的重建误差。在训练时，一些噪声或扰动可能会添加到输入数据，以增加模型的鲁棒性。

2. 去噪自编码器（Denoising Autoencoder，DAE）：

去噪自编码器是一种自编码器，其主要特点是在训练时，对输入数据进行噪声或扰动处理。这种噪声或扰动使模型更具鲁棒性，可以学习更鲁棒的特征表示。DAE的目标是将噪声或扰动的输入数据映射到干净的重构数据。因此，DAE不仅学习了数据的低维表示，还学习了如何去除噪声。

3. Masked Autoencoder for Images（MAE）：

MAE是一种特定于图像的自编码器，旨在处理图像数据。与传统的自编码器不同，MAE采用了一种不对称的编码器-解码器结构，其中编码器只对输入图像的部分进行编码，而解码器负责从编码中重建整个图像。在训练中，MAE使用遮挡（masking）技巧，以随机遮挡输入图像的一部分像素，然后从这些部分遮挡的像素中重建整个图像。

区别和共同点：

- DAE和MAE都是自编码器的变种，它们用于学习数据的低维表示，通过添加噪声或遮挡部分输入来提高鲁棒性。

- DAE可以应用于不同类型的数据，而MAE专门用于图像数据。

- MAE使用了一种特定的不对称结构，其中只有部分输入数据被编码，这使得模型适用于大型图像，而DAE通常用于处理向量或序列数据。

总的来说，DAE和MAE都是自编码器的变种，它们的主要区别在于应用领域和模型结构。 DAE是一个通用的自编码器变种，而MAE是专门设计用于图像的自编码器。

/**--------------------------------------------------***------------------------------------------------------**/

掩模图像编码方法从被遮蔽的图像中学习表示。先驱性工作[59]将遮蔽视为DAE中的一种噪声类型。"Context Encoder" [46] 使用卷积网络来修复大的缺失区域。受NLP领域成功的启发，相关的最近方法[6, 16, 2]基于Transformers [57]。"iGPT" [6]对像素序列进行操作并预测未知像素。"ViT" 论文[16]研究了用于自监督学习的遮蔽补丁预测。最近，"BEiT" [2]提出了预测离散标记的方法[44, 50]。

/**--------------------------------------------------***------------------------------------------------------**/

IGPT（Implicit Generative Prior Transfer）是一种基于生成模型的迁移学习方法，由加州大学伯克利分校的研究团队于2019年提出。它的目标是实现跨领域的视觉迁移学习，即在不同的领域之间传输预训练模型的知识，从而更好地完成新的视觉任务。

相比较于传统的迁移学习方法，IGPT采用了一种全新的方式，将多个视觉领域中不同的先验信息精炼到同一个潜在空间中，然后通过调整该空间中的先验分布来完成视觉迁移过程。因为从真实的图像到潜在空间之间是一个隐式映射，所以该方法被称为“隐式生成先验迁移”。

简单来说，IGPT的过程为：首先在源领域使用生成式模型进行预训练，然后将源域的先验信息嵌入到潜在空间中。这里的潜在空间是一个多维的正态分布空间，将不同领域的先验信息映射到该空间中，使得不同领域的先验信息可以在同一空间里比较。

在目标领域中完成迁移学习时，将目标图像映射到潜在空间，由于两个潜在空间中的数据点之间的距离可以通过计算它们之间的KL散度或JS散度来度量，因此可以度量源域和目标域之间的距离差异。随后，在潜在空间中，调整先验分布，使源域和目标域之间最小化先验分布的KL散度，从而完成迁移学习。

与IGPT类似，MAE（Metric-Aware Pretraining for Early Visual Recognition）也是一种基于迁移学习的视觉模型训练方法。与IGPT不同的是，MAE使用了有监督的预训练任务，在源域中学习图像的表征，以在目标任务中获得更好的性能。

在MAE中，训练过程被分为两个阶段：在有标记的数据集上进行有监督的预训练，然后使用无标记的目标领域数据来继续优化模型。其中，预训练任务采用了一个度量学习算法（例如旁观损失函数），旨在使图像表征能够较好地区分类别。而在迁移学习阶段，模型使用无标记数据来微调先前学习到的表征，以适应新的视觉任务。

因此，IGPT与MAE有两个主要的区别：一是IGPT的预训练过程是无监督的，而MAE的预训练过程是有监督的；二是IGPT使用了隐式生成先验迁移的方式来完成视觉迁移，而MAE使用了度量学习的方法。虽然两种方法的目标都是完成视觉迁移，但它们的实现方式不同，适用场景也有所区别。

/**--------------------------------------------------***------------------------------------------------------**/

BEiT（Bridging the Efficient Information Transfer for Low-resource Vision Tasks）是一种高效的视觉模型，由Facebook AI Research团队于2021年提出。与其他视觉模型不同，BEiT旨在使用较少的标注数据就可以完成复杂的视觉任务，如分类和分割。

BEiT采用了两种主要的技术来提高模型的效率和性能。首先，它使用了一种称为“正交自注意力”的注意力机制来建立全局图像表示。这种方法可以并行计算，使得模型的速度和计算效率得到了提高。其次，BEiT在学习表示时使用了一种新的方法，称为“信息桥接”。

信息桥接是一种在不同尺度之间传递信息的技术。它通过在注意力机制中使用较小的过滤器来捕获图像中的细节信息，并将这些信息传递到较大的过滤器中以建立全面的图像表示。这个过程使得模型可以一并学习不同层次的特征，从而实现更高的分类和分割性能。

相比较于MAE，BEiT的状态-of-the-art表现更好。虽然BEiT和MAE的目标都是提高视觉模型的性能，但是BEiT的关注点更加注重于提高低资源任务的表现。此外，BEiT采用了正交自注意力和信息桥接技术，使得模型的运算效率和准确性得到了大幅提升。

MAE则是一种迁移学习方法，在传统视觉任务上能够实现不错的表现。MAE使用了有标注的数据集来进行有监督的预训练，在预训练和迁移学习阶段都采用了度量学习的算法，以提高模型的表征能力。

总体来说，BEiT与MAE都是用于提高视觉任务性能的方法，但它们的方法、关注点和适用场景有所不同。BEiT主要注重于提高低资源任务的表现，并采用了正交自注意力和信息桥接技术；而MAE主要采用迁移学习的方法，在传统视觉任务上表现较好，并使用了度量学习算法来提高表征能力。

/**--------------------------------------------------***------------------------------------------------------**/

自监督学习方法在计算机视觉领域引起了显著的兴趣，通常侧重于不同的预训练预文本任务[15, 61, 42, 70, 45, 17]。最近，对比学习[3, 22]变得流行，例如[62, 43, 23, 7]，这些方法模拟了两个或多个视图之间的图像相似性和不相似性（或仅相似性[21, 8]）。对比学习和相关方法强烈依赖于数据增强[7, 21, 8]。自编码追求了一个在概念上不同的方向，而且它表现出不同的行为，正如我们将在接下来的内容中呈现。

3. Approach

我们的掩模自编码器（MAE）是一种简单的自编码方法，它根据部分观察到的信号来重建原始信号。与所有自编码器一样，我们的方法包括一个编码器，将观察到的信号映射到潜在表示，以及一个解码器，从潜在表示和掩模标记中重建原始信号。与传统的自编码器不同，我们采用了一个不对称的设计，允许编码器仅在部分观察到的信号上进行操作（不包括掩模标记），并采用轻量级解码器从潜在表示和掩模标记中重建完整的信号。下图1说明了这个思想。

图1所示。我们的MAE架构。在预训练期间，大量随机图像块子集(例如75%)被掩盖。编码器应用于可见图像块的小子集。在编码器之后引入掩码标记，完整的编码块和掩码标记由一个小型解码器处理，以像素为单位重建原始图像。在预训练后，解码器被丢弃，编码器被应用于未损坏的图像(完整的补丁集)以进行识别任务。

Masking。与ViT [16]类似，我们将图像分成规则且不重叠的图块。然后，我们对图块的子集进行采样，遮蔽（即，移除）其余的图块。我们的采样策略很简单：我们随机采样图块，不重复选择，遵循均匀分布。我们简单地将其称为“随机采样”。

高遮蔽比例的随机采样（即，已移除的图块的比例）大大减少了冗余，从而创建了一个任务，不能轻松地通过从可见的相邻图块进行外推来解决（请参见图2-4）。均匀分布防止了潜在的中心偏差（即，在图像中心附近有更多的遮蔽图块）。最后，高度稀疏的输入为设计高效的编码器提供了机会，接下来将介绍。

MAE编码器。我们的编码器是一种ViT [16]，但仅应用于可见的未遮蔽图块。与标准的ViT一样，我们的编码器通过添加位置嵌入进行线性投影来嵌入图块，然后通过一系列Transformer块来处理生成的集合。然而，我们的编码器只在完整集合的不使用掩模标记的一个小子集上运行（例如，25%）。遮蔽的图块被移除。这使我们能够仅使用一小部分计算和内存来训练非常大的编码器。完整的集合由一个轻量级解码器处理，下面将进行描述。

MAE解码器。MAE解码器的输入是由以下内容组成的完整标记集：(i) 已经被编码的可见图块，和 (ii) 被mask的patchs。请参见图1。每个被mask的patch[14]都是一个共享的、可学习到的向量，指示了待预测的丢失图块的存在。我们为这个完整的标记集添加了位置嵌入；如果没有位置嵌入，掩模标记将无法了解它们在图像中的位置。解码器还包括了一系列Transformer块。

已经被编码的可见图块+被mask的patchs--->位置嵌入--->Decoder---> Linear Projection(channel 数等于图像的像素 (pixel) 数)

MAE解码器仅在预训练期间用于执行图像重建任务（仅使用编码器来生成用于识别的图像表示）。因此，解码器的架构可以以与编码器设计无关的方式灵活设计。我们尝试使用非常小的解码器，比编码器更窄和更浅。例如，我们的默认解码器每个标记的计算量仅为编码器的<10%。通过这种不对称的设计，完整的标记集仅由轻量级解码器处理，从而显著减少了预训练时间。

重建目标。我们的MAE通过预测每个遮蔽图块的像素值来重建输入。解码器输出中的每个元素都是表示图块的像素值的矢量。解码器的最后一层是一个线性投影(Linear Projection)，其输出通道数等于图块中的像素值数量。解码器的输出被重塑成一个重建图像。我们的损失函数计算重建图像与原始图像在像素空间中的均方误差（MSE）。我们只在遮蔽的图块上计算损失，类似于BERT [14]。(1仅在屏蔽补丁上计算损失不同于传统的去噪自动编码器[58]，后者计算所有像素上的损失。这种选择纯粹是结果驱动的：计算所有像素的损失会导致精度略有下降（例如，0.5%）。)

我们还研究了一种变种，其重建目标是每个遮蔽图块的归一化像素值。具体来说，我们计算图块中所有像素的均值和标准差，并使用它们来对该图块进行归一化。在我们的实验中，将归一化像素作为重建目标可以提高表示质量。

1.我们损失函数只在被mask的patch上计算重建图像与原始图像在像素空间中的均方误差（MSE）

2.先在每个patch上计算均值和方差，然后每个像素点减去均值和方差记性归一化之后再经过PE后输入到encoder，这种方法的损失函数的均方误差更低。

这个简单的实现非常高效，而且最重要的是，它不需要任何专门的稀疏操作。首先，我们为每个输入图块生成一个标记，这是通过进行线性投影（Linear Projection）并添加位置嵌入(position embedding)实现的。接下来，我们随机打乱标记列表，然后根据遮蔽比例删除列表的最后一部分，这相当于无替换地对图块进行采样。在编码完成后，我们将掩模标记列表附加到编码的图块列表中，并取消随机打乱这个完整的列表（以反转随机打乱操作），以确保所有标记与它们的目标保持一致。解码器被应用于这个完整的列表，同时还添加了位置嵌入。正如已经提到的，这个简单的实现几乎不会引入额外的开销，因为打乱和取消打乱操作都非常快速。

Patchs--->Linear projection--->position embedding--->shuffle--->encoder---> latent representation （潜在表示）

latent representation （潜在表示）+ masked tokens---position embedding--->unshuffle---> Linear projection(channel=piexl)--->loss MSE(mask patchs-reconstructed patch)

4. ImageNet Experiments

（训练好的encoder后边加一个MLP线性分类层，然后在特定数据集上进行微调，端到端就是在特定数据集上可以通过训练修改模型参数，线性探测是仅仅在特定数据集上训练最后的线性分类层。）

我们在ImageNet-1K（IN1K）[13]的训练集上进行了自监督的预训练。然后，我们在特定数据集上进行微调，包括（i）端到端微调线性探测。我们报告了单个224×224裁剪的top-1验证准确度。详细信息请参见附录A.1。

Baseline：ViT-Large。在我们的消融研究中，我们使用ViT-Large（ViT-L/16）[16]作为骨干网络。ViT-L非常庞大（比ResNet-50 [25]大一个数量级），并且容易过拟合。以下是从头训练的ViT-L与从我们的基准MAE微调的比较：

我们注意到，从头开始训练有监督的ViT-L并不是一件简单的事情，需要一个带有强大正则化的良好配置（82.5%，请参见附录A.2）。即便如此，我们的MAE预训练也带来了巨大的改进。在这里，微调仅进行了50个周期（而从头开始需要200个周期），这意味着微调准确度很大程度上依赖于预训练。

4.1. Main Properties

我们使用表1中的默认设置来消融MAE（见标题）。观察到几个有趣的特性。

表1。在ImageNet-1K上用ViT-L/16进行的MAE消融实验。我们报告了微调(ft)和线性探测(lin)精度（%）。如果未指定，默认为：解码器深度为8，宽度为512，重建目标为非标准化像素，数据增强为随机调整大小的裁剪，掩蔽率为75%，预训练长度为800个时期。默认设置以灰色标记。

表二。我们MAE培训MAE的时间（800个epoch），使用TensorFlow在128个TPU-v3内核中进行基准测试。加速与编码器具有掩码标记（灰色）的条目相关。解码器宽度为512，掩模率为75%。»：此条目通过训练十个纪元进行估计。

图6。掩模采样策略决定了借口任务的难度，影响重建质量和表征（表1f）。这里，每个输出都来自用指定的掩蔽策略训练的MAE。左图：随机抽样（我们的默认）。中间：移除大的随机块的分块采样[2]。右图：每四个补丁中保留一个的网格采样。图像来自验证集。

遮蔽比例。图5展示了遮蔽比例的影响。令人惊讶的是，最佳比例相当高。对于线性探测和微调，75%的比例都很好。这与BERT [14]相反，后者的典型遮蔽比例为15%。我们的遮蔽比例也远高于计算机视觉领域相关工作中的比例[6, 16, 2]（20%到50%）。

模型推断缺失的图块以生成不同但合理的输出（图4）。它理解了物体和场景的总体特征，这不能简单地通过扩展线条或纹理来完成。我们假设这种类似推理的行为与学习有用表示相关联。

图5。掩蔽比。高掩蔽率（75%）适用于微调（上图）和线性探测（下图）。在本文的所有图中，y轴是ImageNet-1K验证精度（%）。

图5还显示，线性探测和微调的结果遵循不同的趋势。对于线性探测，准确性随着遮蔽比例的增加稳步提高，直到达到最佳点：准确性差距高达约20%（54.6%对73.5%）。对于微调，结果对比例不太敏感，而在一定范围的遮蔽比例（40-80%）都能表现良好。图5中的所有微调结果都优于从头开始训练（82.5%）。

解码器设计。我们的MAE解码器可以灵活设计，如表1a和1b所示。

表1a中改变了解码器的深度（Transformer块的数量）。对于线性探测来说，足够深的解码器非常重要（Q）。这可以通过像素重建任务和识别任务之间的差距来解释（AN）：自编码器中的最后几层更专门用于重建，但对于识别任务来说不太相关。一个合理深的解码器可以弥补重建专业化在识别方面的不足，将潜在表示留在更抽象的层次上。这个设计可以在线性探测中提高高达8%的性能（表1a，‘lin’）。然而，如果使用微调，编码器的最后几层可以进行微调以适应识别任务。解码器的深度对于改善微调的影响较小（表1a，‘ft’）。

有趣的是，我们的具有单个块解码器的MAE在微调中表现出色（84.8%）。值得注意的是，单个Transformer块是从可见标记传播信息到掩模标记的最低要求。这样一个小的解码器可以进一步加快训练速度。

在表1b中，我们研究了解码器的宽度（通道数量）。我们默认使用512维，它在微调和线性探测下表现良好。较窄的解码器也在微调中表现出色。

总的来说，我们默认的MAE解码器是轻量级的。它有8个块和512维的宽度（表1中的灰色）。它每个标记只有9%的FLOPs，而ViT-L（24个块，1024维）则更高。因此，虽然解码器处理了所有标记，但它仍然只占总计算的一小部分。

Mask token。我们的MAE的一个重要设计是跳过编码器中的mask token[M]，稍后在轻量级解码器中应用它。表1c研究了这种设计。

如果编码器使用掩模标记，它的性能会变差(Q)：在线性探测中，准确性下降了14%。在这种情况下，预训练和部署之间存在差距：在预训练中，(AN)这个编码器的输入中有很大一部分是掩模标记，而在未被损坏的图像中不存在这些掩模标记。这个差距可能会降低部署中的准确性。通过从编码器中移除掩模标记，我们约束编码器始终只看到真实的图块，从而提高准确性。

此外，通过在编码器中跳过掩模标记，我们大大减少了训练计算。在表1c中，我们将整体训练FLOPs减少了3.3×。这导致我们的实现中的时钟速度提升了2.8×（见表2）。对于一个更小的解码器（1个块）、一个更大的编码器（ViT-H）或两者兼而有之，墙钟速度提升甚至更大（3.5-4.1×）。需要注意的是，对于遮蔽比例为75%，3x3=9速度提升可以超过4倍，部分原因是自注意力的复杂度是二次的。此外，内存大大减少，这可以使我们训练更大的模型，或者通过大批量训练更快。时间和内存的效率使我们的MAE适用于训练非常大的模型。

重建目标。在较表1d中，我们比了不同的重建目标。到目前为止，我们的结果是基于未进行（每个图块的）归一化的像素。使用归一化的像素可以提高准确性。这种每个图块的归一化增强了局部对比度。在另一种变种中，我们在图块空间执行主成分分析（PCA），并使用最大的PCA系数（这里是96）作为目标。这样做会降低准确性。这两个实验都表明，高频成分在我们的方法中是有用的。

我们还比较了一种MAE变体，该变体预测标记，这是BEiT [2]中使用的目标。具体而言，对于这种变体，我们使用了DALLE预训练的dVAE [50]作为标记器，遵循[2]的方法。在这种情况下，MAE解码器使用交叉熵损失来预测标记索引。与未归一化的像素相比，这种标记化可以提高微调准确性0.4%，但与归一化像素相比没有优势。它还降低了线性探测的准确性。在第5节中，我们进一步展示了在迁移学习中不需要标记化。

我们基于像素的MAE比标记化简单得多。dVAE标记器需要一个额外的预训练阶段，这可能取决于额外的数据（250M张图像[50]）。dVAE编码器是一个大型的卷积网络（相当于ViT-L的40% FLOPs），并且增加了相当大的开销。使用像素不会受到这些问题的影响。

数据扩充。表1e研究了数据扩充对我们的MAE预训练的影响。

我们的MAE在使用仅裁剪的数据增强时表现良好，无论是固定尺寸还是随机尺寸（两者都包括随机水平翻转）。添加颜色抖动会降低结果，因此在其他实验中我们没有使用它。令人惊讶的是，即使不使用数据增强（只有中心裁剪，没有翻转），我们的MAE表现也相当不错。这一特性与对比学习和相关方法(严重依赖于数据增强)[62, 23, 7, 21]截然不同，后者严重依赖于数据增强。曾经观察到，仅使用裁剪增强会分别降低BYOL [21]和SimCLR [7]的准确性13%和28%。此外，没有证据表明对比学习可以在没有增强的情况下运作：图像的两个视图是相同的，可以轻松满足一个微不足道的解。

在MAE中，数据扩充的作用主要是通过随机掩蔽来执行的（接下来是消融）。对于每次迭代，掩码是不同的，因此不管数据扩充如何，它们都会生成新的训练样本。掩蔽使借口任务变得困难，并且需要较少的增强来规范训练。

掩模采样策略。在表1f中，我们比较了不同的掩模采样策略，如图6所示。

[2]中提出的逐块屏蔽策略倾向于移除大块（图6中间）。我们具有分块掩蔽的MAE在50%的比率下工作得相当好，但在75%的比率下退化。这项任务比随机抽样更难，因为观察到更高的训练损失。重建也更加模糊。

我们还研究了网格采样，它定期保留每四个补丁中的一个（图6右）。这是一个更容易的任务，训练损失更低。重建更加清晰。但是，表示质量较低。

简单的随机抽样对我们的MAE最有效。它允许更高的掩蔽比，这提供了更大的加速优势，同时还享有良好的精度。

训练时间表。到目前为止，我们的消融是基于800历元的预训练。图7显示了训练计划长度的影响。随着训练时间的延长，准确性稳步提高。事实上，即使在1600个时期，我们也没有观察到线性探测精度的饱和。这种行为不同于对比学习方法，例如，对于ViT-L，MoCo v3[9]在300个时期饱和。请注意，MAE编码器每个时期只能看到25%的补丁，而在对比学习中，编码器每个时期只能看到200%（双作物）甚至更多（多作物）的补丁。

图7。训练时间表。较长的训练计划会带来显著的改善。这里的每一点都是一个完整的训练时间表。模型是ViT-L，默认设置见表1。

4.2. Comparisons with Previous Results

与自监督方法的比较。在表3中，我们比较了自监督ViT模型的微调结果。对于ViT-B，所有方法表现相近。对于ViT-L，各方法之间的差距较大，这表明对于更大的模型，降低过拟合是一项挑战。

我们的平均绝对误差（MAE）能够轻松扩展，并从更大的模型中稳步提升。我们在使用ViT-H（224尺寸）时获得了86.9%的准确率。通过使用448尺寸进行微调，我们仅使用IN1K数据就实现了87.8%的准确率。在仅使用IN1K数据的所有方法中，先前的最佳准确率为87.1%（512尺寸）[67]，基于高级网络。在高度竞争的IN1K基准测试中，我们超越了最前沿技术，提升幅度显著，且没有使用外部数据。我们的结果基于标准的ViT模型，我们期望高级网络将表现更好。

与BEiT [2] 相比，我们的平均绝对误差（MAE）更加准确，同时更为简单和快速。我们的方法是对像素进行重建，而不像BEiT那样预测标记（tokens）：当使用ViT-B.2进行像素重建时，BEiT报告了1.8%的性能降级[2]。我们不需要进行dVAE（可变自动编码器）的预训练。此外，我们的MAE在每轮（epoch）中明显更快（每轮快3.5倍），这是在表1c中研究的原因。

表3中的MAE模型进行了1600个周期的预训练以获得更高的准确性（见图7）。即便如此，与其他方法相比，当在相同的硬件上进行训练时，我们的总预训练时间更短。例如，使用128个TPU-v3核心进行ViT-L的训练，我们的MAE模型训练时间为1600个周期的情况下为31小时，而MoCo v3模型为300个周期的情况下为36小时[9]。

表3。与ImageNet1K上以前的结果进行比较。预训练数据是ImageNet-1K训练集（除了BEiT中的标记器是在250M DALLE数据上预训练的[50]）。所有自监督方法都通过端到端微调进行评估。ViT模型有B/16、L/16、H/14[16]。每列的最佳值用下划线标出。所有结果都在224大小的图像上，除了ViT-H在448上有一个额外的结果。这里，我们的MAE重建归一化像素，并对1600个时期进行预训练。

图7。训练时间表。较长的训练计划会带来显著的改善。这里的每一点都是一个完整的训练时间表。模型是ViT-L，默认设置见表1。

与监督预培训的比较。在最初的ViT论文[16]中，ViT-L在IN1K中训练时会降解。我们实施的监督训练（见A.2）效果更好，但准确性饱和。参见图8。

图8。MAE预训练与监督预训练，通过ImageNet-1K（224大小）中的微调进行评估。我们与在IN1K或JFT300M中训练的原始ViT结果[16]进行了比较。

我们的MAE预训练，仅使用IN1K，可以更好地概括：对于更高容量的模型，从头开始训练的增益更大。它遵循类似于[16]中JFT-300米监督预训练的趋势。这一比较表明，我们的MAE可以帮助扩大模型尺寸。

4.3. Partial Fine-tuning

表1显示线性探测和微调的结果在很大程度上不相关。线性探测在过去几年中一直是一种流行的协议；然而，它错失了追求强大但非线性特征的机会，这确实是深度学习的一个优势。作为一个中间地带，我们研究了部分微调协议：微调最后几层，同时冻结其他层。这个协议也在早期的研究中被使用，例如[65, 70, 42]。

图9展示了结果。值得注意的是，仅微调一个Transformer块可以显著提高准确性，从73.5%提升到81.0%。此外，如果我们只微调最后一个块的“一半”（即其MLP子块），我们可以获得79.1%的准确性，远远好于线性探测。这个变种本质上是对MLP头进行微调。微调几个块（例如4个或6个）可以实现接近全面微调的准确性。

在图9中，我们还与MoCo v3 [9] 进行了比较，这是一种基于对比学习的方法，提供了ViT-L的结果。MoCo v3具有更高的线性探测准确性；然而，其部分微调的结果都不如MAE。当微调4个块时，差距为2.6%。尽管MAE的表示不太容易线性分离，但它们具有更强的非线性特征，在进行非线性微调时表现良好。

图9。ViT-L w.r.t。的部分微调结果表1中默认设置下微调的Transformer块数。调优0块是线性探测；24是完全微调。我们的MAE表示不太线性可分，但如果调整一个或多个块，始终优于MoCo v3。

这些观察结果表明，线性可分性不是评估表示质量的唯一度量标准。此外，有观察结果（例如，[8]）表明，线性探测与迁移学习性能，例如目标检测，没有很好的相关性。据我们所知，在自然语言处理中，线性评估并不经常用于预训练的基准测试。

5. Transfer Learning Experiments

我们使用表3中的预训练模型来评估下游任务中的迁移学习。

目标检测和分割。我们在COCO数据集[37]上对Mask R-CNN [24] 进行端到端微调。ViT骨干网络经过适应以与FPN [36] 结合使用（详见附录A.3）。我们将这种方法应用于表4中的所有条目。我们报告了目标检测的框AP（Box AP）和实例分割的掩码AP（Mask AP）。

表4。使用ViT掩模R-CNN基线的COCO对象检测和分割。所有条目都基于我们的实现。自我监督条目使用不带标签的IN1K数据。掩码AP遵循与盒子AP相似的趋势。

与监督式预训练相比，我们的MAE在所有配置下表现更好（表4）。对于较小的ViT-B，我们的MAE的表现比监督式预训练高2.4个百分点（APbox为50.3比47.9）。更重要的是，对于较大的ViT-L，我们的MAE预训练的性能超过监督式预训练4.0个百分点（53.3比49.3）。

基于像素的MAE比基于标记的BEiT要好，或者在相同水平上，同时MAE更加简单和快速。MAE和BEiT都优于MoCo v3，而MoCo v3与监督式预训练在性能上相当。

语义分割。我们在ADE20K数据集[72]上使用UperNet [63] 进行了实验（详见附录A.4）。表5显示，我们的预训练明显改善了监督式预训练的结果，例如对于ViT-L，提高了3.7个百分点。我们的基于像素的MAE性能也优于基于标记的BEiT。这些观察结果与COCO数据集上的结果一致。

表5。使用UperNet的ADE20K语义分割（mIoU）。BEiT结果使用官方代码复制。其他条目基于我们的实现。自我监督条目使用不带标签的IN1K数据。

分类任务。表6研究了非自然主义者[56]和地方[71]任务的迁移学习（见A.5）。在iNat上，我们的方法显示出很强的缩放行为：随着模型的增大，精度大大提高。我们的结果大大超过了以前的最好结果。在Places上，我们的MAE优于之前的最佳结果[19，40]，这些结果是通过对数十亿张图像进行预训练获得的。

表6。使用在IN1K上预训练然后微调的MAE，在分类数据集上转移学习准确性。我们提供了与以前最佳结果的系统级比较。

Pixels vs. tokens。表7比较了以像素和标记作为MAE重建目标的情况。虽然在使用dVAE时，使用标记要优于使用未标准化的像素，但在我们测试的所有情况下，使用标准化的像素与使用标记在统计上是相似的。这再次表明，对于我们的MAE模型，标记化不是必要的（class token是不必要的）。

表7。像素与标记作为MAE重建目标。4是使用dVAE标记和使用标准化像素之间的区别。这种差异在统计学上并不显著。

6. Discussion and Conclusion

简单且可扩展的算法是深度学习的核心。在自然语言处理（NLP）中，简单的自监督学习方法（例如[47, 14, 48, 4]）使得模型的规模呈指数级增长时能够获得好处。然而，在计算机视觉领域，尽管自监督学习取得了进展，实际的预训练范式主要是监督的（例如[33, 51, 25, 16]）。在这项研究中，我们观察到在ImageNet和迁移学习中，自动编码器这一类似NLP中的简单自监督方法提供了可扩展的优势。因此，计算机视觉领域的自监督学习可能正在走上与NLP类似的轨迹。

另一方面，我们注意到图像和语言是不同性质的信号，这种差异必须谨慎处理。图像只是记录的光线，没有将其分解成视觉上的单词的语义。我们不是试图移除对象，而是移除最可能不构成语义片段的随机区域。同样，我们的MAE对像素进行重建，而像素不是语义实体。然而，我们观察到（例如，图4），我们的MAE能够推断复杂的整体重建，表明它已经学会了许多视觉概念，即语义。我们假设这种行为是通过MAE内部的丰富隐藏表示来实现的。我们希望这种观点能够激发未来的研究工作。

更广泛的影响。所提出的方法基于训练数据的学习统计来预测内容，因此将反映这些数据中的偏见，包括那些具有负面社会影响的偏见。模型可能生成不存在的内容。这些问题需要进一步的研究和考虑，尤其是在基于这项工作生成图像时。在使用这项技术时，需要谨慎考虑并采取适当的措施来减轻可能的负面影响。

A. Implementation Details

A.1. ImageNet Experiments

ViT架构。我们遵循标准的ViT架构[16]。它包括一系列Transformer块[57]，每个块由多头自注意力块和MLP块组成，均配备LayerNorm（LN）[1]。编码器以LN结束。由于MAE的编码器和解码器具有不同的宽度，我们在编码器之后采用线性投影层进行匹配。我们的MAE在编码器和解码器输入中都添加位置编码[57]（正弦-余弦版本）。我们的MAE不使用相对位置或层缩放（这些在[2]的代码中使用）。

我们从编码器输出中提取特征以进行微调和线性探测。由于ViT具有一个（class token）类标记[16]，为了适应这一设计，在我们的MAE预训练中，我们在编码器输入中附加了一个辅助虚拟标记。在线性探测和微调中，这个标记将被视为类标记用于训练分类器。我们的MAE也可以在没有这个标记的情况下（使用平均池化）正常运行。

在ViT中表明，class token和avger pooling 具有相同的效果，MAE可以选择继续使用class token做为分类器的输入，也可以将encoder的输入进行平均池化之后作为MLP的输入。

预训练。默认设置如表8所示。我们不使用颜色抖动，丢弃路径（drop path）或梯度剪裁。我们使用Xavier均匀初始化[18]来初始化所有的Transformer块，遵循ViT的官方代码[16]。我们使用线性学习率缩放规则[20]：lr = base lr×batchsize / 256.。

End-to-end fine-tuning setting。我们的微调遵循监督式ViT训练的常见实践。默认设置如表9所示。我们使用层次学习率衰减[10]，参考[2]。

Table 8. Pre-training setting.

Table 9. End-to-end fine-tuning setting.

线性探测。我们的线性分类器训练遵循[9]。详见表10。我们观察到，线性探测需要与端到端微调非常不同的设置。特别是，正则化通常对线性探测有害。按照[9]的方法，我们禁用了许多常见的正则化策略：我们不使用mixup [69]，cutmix [68]，drop path [30]，或颜色抖动，并将权重衰减设置为零。

表10。线性探测设置。我们使用大批量的LARS进行更快的训练；SGD与4096批次的工作方式类似。

在训练传统的线性分类器（例如SVM [11]）时，通常会对分类器的输入进行归一化。同样，当训练线性探测分类器时，对预训练特征进行归一化是有益的。按照[15]，我们采用了额外的BatchNorm层[31]，但没有仿射变换（affine=False）。这一层应用在编码器生成的预训练特征上，位于线性分类器之前。我们注意到，这一层不会破坏线性性质，而且在训练后可以吸收到线性分类器中：它本质上是一个重新参数化的线性分类器。引入这一层有助于校准不同变种之间的特征幅度，以便它们可以在不进行进一步学习率搜索的情况下使用相同的设置。

/**--------------------------------------------------***------------------------------------------------------**/

仿射变换是一种对二维平面上的点或图像进行线性变换和平移的数学方法。它可以通过组合旋转、缩放、错切和平移等操作来实现。

在二维平面上，一个点（x，y）经过仿射变换后变成了新的点（x'，y'）。该变换可以表示为一个线性变换和一个平移，如下所示：

x' = a * x + b * y + c

y' = d * x + e * y + f

其中，a、b、d、e是线性变换的参数，c和f是平移的参数。这些参数决定了变换的方式和程度。

常见的仿射变换操作包括：

1. 旋转：通过调整线性变换参数来实现点或图像的旋转。旋转角度可以是正值（顺时针旋转）或负值（逆时针旋转）。

2. 缩放：通过调整线性变换参数来实现点或图像的缩放。缩放因子可以是不同的，可分别在水平和垂直方向上进行缩放。

3. 错切：通过调整线性变换参数来实现点或图像的错切变换。错切可以使图像在水平或垂直方向上发生斜拉。

4. 平移：通过调整平移参数来实现点或图像的平移。平移将点或图像沿水平和垂直方向上移动一定距离。

仿射变换在计算机图形学和计算机视觉领域被广泛应用，例如图像的几何校正、图像配准、图像拼接等。它可以改变图像的形状、角度和位置，从而提供更灵活的图像处理和分析方法。

部分微调。我们的MAE部分微调（§4.3）遵循表9中的设置，只是我们调整了微调的时代数。我们观察到微调较少的块需要更长的时间表。我们将微调的时代数设置为{50, 100, 200}，并根据微调块数选择最优的时代数。

/**--------------------------------------------------***------------------------------------------------------**/

A.2. Supervised Training ViT-L/H from Scratch

我们发现，从头开始在ImageNet-1K上训练监督ViT-L/H并不容易。训练是不稳定的。尽管对于较小模型已经有强大的baseline，并且有公开可用的实现[53]，但对于较大的ViT-L/H模型，相关的方法尚未被深入研究。直接将以前的方法应用于这些更大的模型通常不奏效。在训练过程中经常观察到损失出现NaN值。

我们在表11中提供了我们的训练设置。我们使用0.3的权重衰减（wd），较大的批量大小为4096，并采用较长的热身阶段，遵循原始的ViT[16]。我们使用β2=0.95，按照[6]的设置。我们使用表11中列出的正则化方法，并禁用其他方法，遵循[64]的建议。所有这些选择都是为了提高训练的稳定性。根据我们的设置，训练过程可以完成而不会出现NaN损失。

ViT-L的准确率为82.6%（不使用EMA时为81.5%），ViT-H的准确率为83.1%（不使用EMA时为80.9%）。如果不使用EMA，ViT-L和ViT-H都表现出过拟合的趋势。

另外，我们为ViT-B提供的设置使其准确率为82.3%（不使用EMA时为82.1%），而[53]中的准确率为81.8%。

A.3COCO中的目标检测与分割

我们为Mask R-CNN [24] 中的FPN骨干[36]对普通的ViT进行了适应。ViT具有一个包含多个Transformer块的堆栈，它们都在一个单一的尺度（例如，步幅16）上生成特征图。我们将这个堆栈均等地分成4个子集，并应用卷积来上采样或下采样中间特征图，以生成不同的尺度（步幅4、8、16或32，与标准的ResNet[25]相同）。FPN是基于这些多尺度的地图构建的。

为了在不同的方法之间进行公平比较，我们为表4中的每个条目（包括所有竞争对手）搜索超参数。我们搜索的超参数包括学习率、权重衰减、丢弃路径率和微调时代。我们将发布包含特定配置的代码。有关完整的模型和训练细节，以及其他实验，请参阅[35]。

表4。使用ViT掩模R-CNN基线的COCO对象检测和分割。所有条目都基于我们的实现。自我监督条目使用不带标签的IN1K数据。掩码AP遵循与盒子AP相似的趋势。

A.4ADE20K中的语义分割

我们使用UperNet [63]，并遵循[2]的语义分割代码。我们采用批量大小为16的情况，进行100个时代的端到端微调。为了在表5中的每个条目（包括所有竞争对手）中寻找最佳的学习率，我们进行了搜索。

[2]的语义分割代码使用相对位置偏差[49]，而我们的MAE预训练没有使用它。为了进行公平比较，我们只在迁移学习期间打开相对位置偏差，并将其初始化为零。我们注意到，我们的BEiT重现使用了相对位置偏差，包括在预训练和微调中，遵循他们的代码。

表5。使用UperNet的ADE20K语义分割（mIoU）。BEiT结果使用官方代码复制。其他条目基于我们的实现。自我监督条目使用不带标签的IN1K数据。

A.5其他分类任务

我们遵循表9中的非自然主义者设置，并对位置进行微调（表6）。我们为每个单独的数据集调整lr和微调时期。

B. Comparison on Linear Probing Results线性探测结果的比较

在第4.3节中，我们已经展示了线性探测准确性和微调准确性在很大程度上没有相关性，它们对于线性可分性有不同的关注点。我们注意到，现有的基于遮蔽图像编码的方法通常在线性探测方面竞争力较弱（例如，不如对比学习）。为了完整起见，在表12中，我们与基于遮蔽的方法进行了线性探测准确性的比较。

表12。屏蔽编码方法的线性探测结果。我们的微调结果如表3所示。†：我们的实施。

我们的ViT-L MAE具有75.8%的线性探测精度。这比以前的基于掩蔽的方法要好得多。另一方面，它仍然落后于该协议下的对比方法：例如，MoCo v3[9]对ViT-L具有77.6%的线性探测精度（图9）。

我们的ViT-L搭配MAE在线性探测准确性方面达到了75.8%。这比以前的基于遮蔽的方法要好得多。但另一方面，在这一协议下，它仍然落后于对比学习方法，例如，ViT-L与MoCo v3 [9]搭配的线性探测准确性为77.6%（见图9）。

C. Robustness Evaluation on ImageNet ImageNet的健壮性评估

在表13中，我们评估了我们的模型对ImageNet验证集不同变种的鲁棒性。我们使用相同的在原始ImageNet上微调的模型（表3），只在不同的验证集上进行推理，没有进行专门的微调。表13显示我们的方法具有强大的可伸缩性：增加模型大小具有显著的收益。增加图像尺寸在所有集合中都有所帮助，但在IN-C集合中则相反。我们的结果在所有集合中都明显优于以前的最佳结果（专门系统的结果）。

表13。ImageNet变体的鲁棒性评估（前1名的准确性，IN-C[27]除外，它评估平均损坏误差）。我们在不同的ImageNet验证集上测试相同的MAE模型（表3），没有任何专门的微调。我们提供了与以前最佳结果的系统级比较。

相比之下，监督训练表现得差得多（表13底部；模型描述在A.2中）。例如，使用ViT-H，我们的MAE预训练在IN-A上比监督对照表现更好，准确性提高了35%（68.2%对33.1%）。

哈尔滨张谦蛋

关注

2
点赞
踩
5

收藏

觉得还不错? 一键收藏
1
评论
深度学习之图像分类（十二）Masked Autoencoders Are Scalable Vision Learners（MAE）详解

本文表明，掩蔽自动编码器（MAE）是一种可扩展的计算机视觉自监督学习器。我们的MAE方法很简单：我们屏蔽输入图像的随机patch，并重建缺失的像素。它基于两个核心设计。首先，我们开发了一种非对称编码器——解码器架构，编码器仅对patch的可见子集（没有掩模标记）进行操作，轻量级解码器从潜在表示和掩模标记重建原始图像。第二，我们发现掩蔽高比例的输入图像，例如75%，产生了重要且有意义的自我监督任务。耦合这两种设计使我们能够高效和有效地训练大型模型：我们加速了训练（3倍或更多）并提高了准确性。
复制链接

扫一扫

专栏目录