【自监督论文阅读笔记】 Masked Autoencoders Are Scalable Vision Learners

本文链接：https://blog.csdn.net/YoooooL_/article/details/127114753

(PS：token 在NLP中指的是句子中的单词，在CV中可以理解成图片切成的patches)

本文表明，掩码自编码器 (MAE) 是用于计算机视觉的可扩展自监督学习器。本文的 MAE 方法很简单：屏蔽输入图像的随机patch 并重建丢失的像素。它基于两个核心设计。

首先，本文开发了一个非对称的编码器-解码器架构，其中一个编码器只对可见的patches子集（没有掩码tokens）进行操作，以及一个轻量级解码器，它从隐表示和掩码tokens 重建原始图像。
其次，本文发现 屏蔽输入图像的高比例，例如 75%，会产生一个重要且有意义的自监督任务。

结合这两种设计使本文能够有效地训练大型模型：本文加速训练（3 倍或更多）并提高准确性。本文的可扩展方法允许学习泛化良好的大容量模型：例如，在仅使用 ImageNet-1K 数据的方法中，普通的 ViT-Huge 模型实现了最佳精度 (87.8%)。下游任务中的迁移性能优于有监督的预训练并显示出有希望的扩展性能。

Introduction:

深度学习见证了能力和容量不断增长的架构的爆炸式增长[33、25、57]。在硬件快速增长的帮助下，如今的模型可以轻松地容纳一百万张图像[13]，并开始需要 数亿张 通常无法公开获取的标签图像[16]。

在自然语言处理（NLP）中，这种对数据的需求已经通过自监督预处理得到了成功解决。基于GPT中的自回归语言建模[47，48，4] 和 BERT中的掩码自动编码[14]的解决方案在概念上很简单：它们删除了一部分数据，并学习预测删除的内容。这些方法现在可以训练包含超过1000亿个参数的通用NLP模型[4]。

掩码自编码器的思想是一种 更通用的去噪自编码器 [58]的形式，在计算机视觉中也是自然的和适用的。事实上，与视觉密切相关的研究[59,46]先于BERT。然而，尽管BERT的成功引起了人们对这一想法的极大兴趣，但视觉领域的自动编码方法的进展却落后于NLP。是什么使掩码自动编码在视觉和语言之间不同?本文试图从以下角度回答这个问题：

(i)直到最近，架构都是不同的。在视觉方面，卷积网络[34]在过去十年中占主导地位[33]。卷积通常在规则网格上运行，将 掩码tokens[14] 或位置嵌入[57] 等“指示符” 集成到卷积网络中并不简单。然而，随着 视觉转换器(ViT)[16]的引入，这种架构上的差距已经得到了解决，应该不再是障碍。

(ii) 语言和视觉之间的信息密度是不同的。语言是人类产生的信号，具有高度的语义和信息密度。当训练一个模型预测每句话只缺的几个单词时，这个任务似乎诱导了复杂的语言理解。相反，图像是具有严重空间冗余性的自然信号—— 一个丢失的patch 可以从相邻的patch中恢复，而无需对部分、目标和场景进行高级理解。为了克服这种差异并鼓励学习有用的特征，本文展示了一个在计算机视觉中工作良好的简单策略：屏蔽非常高比例的随机patch 。这种策略在很大程度上 减少了冗余，并创建了一个具有挑战性的自监督任务，需要超越低级图像统计的整体理解。为了得到本文的重建任务的一个定性的感觉，请参见图2 - 4。

(iii) 自动编码器的解码器 将隐表示映射回输入，在重建文本和图像之间扮演不同的角色。

在视觉中，解码器重建像素，因此其输出的语义级别低于普通识别任务。

这与语言相反，在语言中，解码器预测包含丰富语义信息的缺失单词。

虽然在BERT中，解码器可能很简单（MLP）[14]，但本文发现，对于图像，解码器设计在确定学习到的隐表示的语义水平方面起着关键作用。

在这种分析的驱动下，本文提出了一种简单、有效、可扩展的掩码自动编码器（MAE）形式，用于视觉表示学习。本文的MAE 从输入图像中屏蔽随机patches，并重建像素空间中缺失的patches。它采用 非对称的编码器设计。本文的编码器只对可见的patches子集进行操作（没有掩码tokens），本文的解码器是 轻量级的，它从隐表示和掩码标记重建输入（图1）。在本文的非对称编码器解码器中，将掩码tokens移动到小解码器会大大减少计算量。在这种设计下，非常高的掩码率（例如75%）可以实现双赢局面：它优化了精度，同时允许编码器只处理一小部分（例如25%）patches。这可以将总体预训练时间减少3倍或更多，同样也可以减少内存消耗，使本文能够轻松地将MAE扩展到大型模型。

本文的MAE学习的是泛化能力很强的大容量模型。通过MAE预训练，可以在ImageNet-1K上训练像vitv - large /-Huge[16]这样的数据需求模型，并提高泛化性能。使用普通的viti - huge模型，在ImageNet-1K上进行微调时，本文获得了87.8%的精度。这优于以前所有仅使用ImageNet-1K数据的结果。本文还评估了迁移学习的目标检测，实例分割和语义分割。在这些任务中，本文的预训练比有监督的预训练取得了更好的结果，更重要的是，本文通过扩大模型观察到显著的收获。这些观察结果与自监督的NLP预训练中的观察结果一致[14,47,48,4]，本文希望它们能使本文的领域探索类似的轨迹。

Related Work：

掩码语言建模：

掩码语言建模及其自回归对应物，例如 BERT [14] 和 GPT [47, 48, 4]，是 NLP 预训练的非常成功的方法。这些方法保留了输入序列的一部分并训练模型来预测丢失的内容。这些方法已被证明可以很好地扩展[4]，并且大量证据表明这些预训练的表示可以很好地推广到各种下游任务。

自动编码：

自动编码是学习表示的经典方法。它有一个将输入映射到隐表示的编码器和一个重构输入的解码器。例如，PCA 和 k-means 是自动编码器 [29]。去噪自动编码器 (DAE) [58] 是一类自动编码器，它破坏输入信号并学习重建原始的、未破坏的信号。一系列方法可以被认为是不同损坏下的广义 DAE，例如，屏蔽像素 [59、46、6] 或移除颜色通道 [70]。本文的 MAE 是一种去噪自动编码的形式，但在许多方面与经典 DAE 不同。

掩码图像编码：

掩码图像编码方法从被掩码破坏的图像中学习表示。 [59] 的开创性工作 将掩码作为 DAE 中的一种噪声类型。上下文编码器 [46] 使用卷积网络修复大的缺失区域。受 NLP 成功的启发，最近的相关方法 [6, 16, 2] 基于 Transformers [57]。 iGPT [6] 对像素序列进行操作并预测未知像素。 ViT 论文 [16] 研究了用于自监督学习的掩码patches预测。最近，BEiT [2] 提出预测离散的tokens [44, 50]。

自监督学习：

自监督学习方法已经引起了计算机视觉的极大兴趣，通常专注于预训练的不同前置任务[15、61、42、70、45、17]。最近，对比学习 [3, 22] 很流行，例如 [62, 43, 23, 7]，它模拟两个或多个视图之间的图像相似性和不相似性（或仅相似性 [21, 8]）。对比和相关方法强烈依赖于数据增强 [7, 21, 8]。自动编码追求一个概念上不同的方向，它表现出我们将要呈现的不同行为。

本文的掩码自动编码器(MAE)是一种简单的自动编码方法，它可以 在给定的局部观测条件下重建原始信号。像所有的自动编码器一样，本文的方法有一个编码器将观察到的信号映射到一个隐表示，和一个解码器从隐表示重建原始信号。与经典的自动编码器不同，本文采用了 非对称设计，允许编码器仅对部分观测信号(没有掩码tokens)进行操作，并采用了轻量级解码器，从隐表示和掩码tokens 重构完整信号。图1说明了本文的方法。

掩码：

根据ViT[16]，本文将图像划分为规则的不重叠的patches。然后本文对patches的子集进行采样，并屏蔽(例如，删除)其余的patches 。本文的采样策略很简单：我们按照均匀分布随机采样patches而不进行替换。我们简单地将其称为“随机抽样”。

具有高掩码率（即，已删除patches的比率）的随机采样 在很大程度上消除了冗余，从而创建了一项无法通过从可见的相邻patches外推来轻松解决的任务（参见图 2-4）。均匀分布 可防止潜在的中心偏差（即图像中心附近有更多的掩码patches）。最后，高度稀疏的输入 为设计高效编码器创造了机会。

MAE编码器：

本文的编码器是 ViT [16]，但仅应用于可见的、未屏蔽的patches。就像在标准 ViT 中一样，本文的编码器 通过线性投影嵌入patches 并添加位置嵌入，然后通过一系列 Transformer 块处理结果集。然而，本文的编码器只对整个集合的一个小子集（例如 25%）进行操作。被屏蔽的patches被移除；不使用掩码tokens。这使本文能够 只用一小部分计算和内存来训练非常大的编码器。全部集合由轻量级解码器处理，如下所述。

MAE解码器:

MAE 解码器的输入是由 (i) 编码可见patches 和 (ii) 掩码tokens组成的完整tokens集。参见图 1。每个掩码token [14] 是一个共享的学习向量，表示存在要预测的缺失patches。本文将 位置嵌入 添加到这个完整集合中的所有标记；没有这个，掩码tokens 将没有关于它们在图像中的位置的信息。解码器有另一个系列的 Transformer 块。

MAE解码器 仅在预训练期间用于执行图像重构任务 (只有编码器 用于产生用于识别的图像表示)。因此，可以以独立于编码器设计的方式灵活地设计解码器架构。本文用非常小的解码器做实验，比编码器更窄更浅。例如，与编码器相比，本文的默认解码器每个tokens的计算量小于10%。使用这种非对称设计，完整的tokens集只由轻量级解码器处理，这大大减少了预训练时间。

重建目标：

本文的MAE 通过 预测每个被屏蔽patches的像素值来重建输入。解码器输出中的每个元素都是表示一个patch的像素值向量。解码器的最后一层是一个线性投影，其输出通道的数量等于一个patch中的像素值的数量。解码器的输出被重塑以形成重建图像。

本文的损失函数 计算 重建图像和原始图像在像素空间中的均方误差(MSE)。本文只计算掩码patches上的损失，类似于BERT[14]。计算所有像素上的损失会导致精度的轻微下降(例如，~ 0.5%)。

本文还研究了一种变体，它的重建目标是每个被屏蔽patches的 归一化像素值。具体来说，本文计算一个patch中所有像素的平均值和标准差，并使用它们来规范化这个patch。在实验中，采用归一化像素作为重建目标提高了表示质量。

简单的实现：

本文的MAE预训练可以有效地实现，而且重要的是，它不需要任何专门的稀疏操作。

首先，我们为每个输入patch 生成一个token (通过添加了位置嵌入的线性投影)。
接下来，我们随机打乱（random shuffle）tokens列表，并根据屏蔽比删除列表的最后一部分。这个过程为编码器产生一个tokens的小子集，相当于没有替换地采样patches。

编码之后，我们将掩码tokens的列表 附加到编码patches的列表中，并对这个完整的列表进行反排序(unshuffle) (逆随机排序操作) ，以使所有tokens与它们的目标对齐。解码器应用于这个完整的列表(添加了位置嵌入)。如前所述，不需要任何稀疏操作。这个简单的实现引入了微不足道的开销，因为洗牌和反洗牌操作非常快。

ImageNet Experiments：

本文在ImageNet-1K (IN1K)[13]训练集上进行自监督的预训练。然后进行监督训练，通过(i)端到端微调或 (ii)线性探测来评估表示。本文报告了一个224×224裁剪的最佳验证精度。详情见附录A.1。

基线：ViT-Large：

本文使用 ViT-Large (ViT-L/16)[16]作为消融研究的主干。ViT-L非常大(比ResNet-50[25]大一个数量级)，并且 容易过拟合。以下是从零开始训练的ViT-L与根据本文的基线MAE进行微调的比较：

我们注意到，从头开始训练受监督的ViT-L并非易事，需要一个具有强大正则化的良好配方（82.5%，见附录a.2）。即便如此，本文的MAE预训练也有很大的改进。这里的微调时间仅为50个epochs （而不是从零开始的200个），这意味着微调精度在很大程度上取决于预训练。

Main Properties：

本文使用表1中的默认设置消融MAE（见标题）。观察到几个有趣的特性。

掩码比：

图5显示了掩码率的影响。最佳比率出奇地高。75%的比率对线性探测和微调都有好处。这种行为与BERT[14]相反，BERT的典型掩码率为15%。在计算机视觉领域，本文的掩码率也远高于相关研究[6,16,2]（20%-50%）。

该模型推断缺失的patches会产生不同但似乎合理的输出（图4）。它可以理解物体和场景的格式塔，而这不能简单地通过延伸线条或纹理来完成。本文假设这种类似推理的行为与学习有用的表征有关。

图5还显示了线性探测和微调结果遵循不同的趋势。对于线性探测，精度随着掩码比的增加而稳步增加，直到sweet point：精度差距高达20% (54.6% vs. 73.5%)。对于微调，结果对 比例不太敏感，并且在较大范围的掩蔽比(40-80%)工作良好。图5中的所有微调结果都优于从头训练(82.5%)。

解码器Decoder设计：

本文的 MAE 解码器可以灵活设计，如表 1a 和 1b 所示。

表 1a 改变了 解码器深度（Transformer 块的数量）。足够深的解码器对于线性探测很重要。这可以通过像素重建任务和识别任务之间的差距来解释：自动编码器中的最后几层更专门用于重建，但与识别的相关性较低。一个相当深的解码器可以解释重建专业化，将隐表示留在更抽象的级别。这种设计可以在线性探测方面产生高达 8% 的改进（表 1a，“lin”）。但是，如果使用微调，则可以调整编码器的最后几层以适应识别任务。解码器深度对改进微调的影响较小（表 1a，“ft”）。

有趣的是，本文的带有单块解码器的 MAE 可以通过微调 (84.8%) 表现出色。请注意，单个 Transformer 块是将信息从可见token 传播到掩码token的最低要求。这么小的解码器可以进一步加快训练速度。

在表 1b 中，本文研究了 解码器宽度（通道数）。本文默认使用 512-d，它在微调和线性探测下表现良好。较窄的解码器也适用于微调。

总的来说，本文默认的 MAE 解码器是轻量级的。它有 8 个块，宽度为 512-d（表 1 中的灰色）。与 ViT-L（24 个区块，1024-d）相比，每个token只有 9% 的 FLOPs。因此，虽然解码器处理所有tokens，但它仍然只是整体计算的一小部分。

掩码token：

本文的 MAE 的一个重要设计是跳过编码器中的掩码token [M]，然后在轻量级解码器中应用它。表 1c 研究了这种设计。

如果编码器使用掩码token，它的表现会更差：在线性探测中其准确度下降 14%。在这种情况下，预训练和部署之间存在差距：该编码器在预训练中的输入中有很大一部分掩码token，这在未损坏的图像中不存在。这种差距可能会降低部署的准确性。通过从编码器中移除掩码token，本文约束编码器始终看到真实的patches，从而提高准确性。

此外，通过跳过编码器中的掩码token，本文大大减少了训练计算。在表 1c 中，本文将整体训练 FLOPs 减少了 3.3 倍。在本文的实现中，这导致了 2.8 倍的挂钟加速（见表 2）。对于较小的解码器（1 块）、较大的编码器（ViT-H）或两者兼而有之，挂钟加速甚至更大（3.5–4.1 倍）。请注意，对于 75% 的掩码率，加速比可能 > 4 倍，部分原因是自注意复杂度是二次的。此外，内存大大减少，可以训练更大的模型或通过大批量训练加快速度。时间和内存效率使本文的 MAE 有利于训练非常大的模型。

重建目标：

本文在表1d中比较了不同的重建目标。到目前为止，本文的结果是 基于像素，没有(每个patch)规范化。使用带归一化的像素可以提高精度。这种每个patch的归一化 增强了局部的对比度。在另一种变体中，本文在patch空间中执行PCA，并使用最大的PCA系数(这里是96)作为目标。这样做会降低准确性。这两个实验都表明 高频分量在本文的方法中是有用的。

本文还比较了一个MAE变体，它预测tokens，在BEiT[2]中使用的目标。特别对于这个变体，本文遵循[2] 使用DALLE预训练的dVAE[50] 作为 tokenizer分词器。在这里，MAE解码器使用交叉熵损失预测token索引。与非归一化像素相比，这种标记化tokenization提高了0.4%的微调精度，但与归一化像素相比没有任何优势。它还降低了线性探测精度。在§5中，本文进一步表明标记化tokenization在迁移学习中是不必要的。

本文的基于像素的MAE比标记化简单得多。dVAE标记器需要一个额外的预训练阶段，这可能依赖于额外的数据(250M图像[50])。dVAE编码器是一个大的卷积网络(40%的ViT-L的FLOPs)，增加了不小的开销。使用像素不会出现这些问题。

数据增强：

表 1e 研究了数据增强对本文的 MAE 预训练的影响。

本文的 MAE 使用 仅裁剪增强 效果很好，无论是固定大小还是随机大小（都具有随机水平翻转）。添加颜色抖动会降低结果，因此本文不会在其他实验中使用它。

令人惊讶的是，即使不使用数据增强（仅中心裁剪，没有翻转），本文的 MAE 也表现得很好。此属性与 严重依赖数据增强的对比学习和相关方法 [62、23、7、21] 截然不同。据观察[21]，使用仅裁剪增强将 BYOL [21] 和 SimCLR [7] 的准确度分别降低了 13% 和 28%。此外，没有证据表明对比学习可以在没有增强的情况下工作：图像的两个视图是相同的，并且可以很容易地满足一个无效解。

在 MAE 中，数据增强的作用主要是通过随机掩码来完成的。每次迭代的掩码都是不同的，因此无论数据增强如何，它们都会生成新的训练样本。掩码使前置任务变得困难，并且需要较少的增强来规范训练。

掩码采样策略：

在表 1f 中，本文比较了不同的掩码采样策略，如图 6 所示。

[2] 中提出的逐块掩码策略（block-wise）倾向于删除大块（图 6 中）。本文的 MAE 用逐块掩码在比例为 50%时的效果相当好，比例为 75%时下降。这个任务比随机采样更难，因为观察到更高的训练损失。重建也更加模糊。
本文还研究了网格级采样（grid-wise），它定期保留每四个patches中的一个（图 6 右）。这是一项更容易的任务，并且训练损失更低。重构更加清晰。但是，表示质量较低。
简单随机抽样最适合本文的 MAE。它允许更高的掩码率，从而提供更大的加速优势，同时还具有良好的准确性。

Training schedule：

到目前为止，本文的消融是基于800个epoch的预训练。图7显示了training schedule长度的影响。训练时间越长，准确率越高。事实上，即使在1600 epoches，本文也没有观察到线性探测精度的饱和。这种行为不同于对比学习方法，例如，ViT-L的MoCo v3[9]在300 epoches时饱和。注意，MAE编码器每个epoch 只看到25%的patches，而在对比学习中，编码器每个epoch 看到200%(two-crop两个裁剪)甚至更多(multi-crop多个裁剪)的patches。

Comparisons with Previous Results：

与自监督方法的比较：

在表 3 中，本文比较了自监督 ViT 模型的微调结果。对于 ViT-B，所有方法的性能都非常接近。对于 ViT-L，方法之间的差距更大，这表明更大模型的挑战是减少过度拟合。

本文的 MAE 可以轻松扩展，并且从更大的模型中显示出稳定的改进。本文使用 ViT-H（224 size）获得了 86.9% 的准确率。通过使用 448 size 进行微调，本文仅使用 IN1K 数据即可达到 87.8% 的准确率。基于高级网络，在所有仅使用 IN1K 数据的方法中，之前的最佳准确率为 87.1%（512 大小）[67]。在极具竞争力的 IN1K 基准测试（无外部数据）中，本文以显要的幅度改进了最先进的技术。本文的结果基于普通的ViT，预计高级网络将表现更好。

与 BEiT [2] 相比，本文的 MAE 更准确，同时更简单、更快。与预测tokens的 BEiT 相比，本文的方法重建像素：BEiT 在使用 ViT-B 重建像素时报告了 1.8% 的退化 [2] 。MAE 不需要 dVAE 预训练。此外，本文的 MAE 比 BEiT 快得多（每个 epoch 3.5 倍），原因如表 1c 所示。

表3中的MAE模型经过1600 epoches的预训练，以获得更好的精度(图7)。即便如此，在相同的硬件上训练时，本文的预训练总时间比其他方法要短。例如，在128 TPU-v3核上训练ViT-L，MAE的训练时间是31小时，用于1600 epoch， MoCo v3的训练时间是36小时，用于300 epoch[9]。

与有监督预训练的比较：

在最初的ViT论文[16]中，ViT-L在IN1K中训练时会降解。本文实施的有监督训练(见A.2)效果更好，但准确性已经饱和。参见图8所示。

本文的MAE预训练，只使用IN1K，可以更好地泛化：从零开始训练的增益对于更高容量的模型更大。它遵循了类似于[16]中的JFT-300M监督预训练的趋势。这个比较表明 MAE可以有助于放大模型的尺寸。

Partial Fine-tuning 局部微调：

表1显示 线性探测和微调结果在很大程度上是不相关的。线性探测在过去几年中一直是一种流行的协议；然而，它错过了追求 强大但非线性特征 的机会——这确实是深度学习的优势。作为中间立场，本文研究了 局部微调协议：微调最后几层，同时冻结其他层。该协议也在早期的工作中被使用，例如[65,70,42]。

图9显示了结果。值得注意的是，微调一个Transformer块可以显著提高精确度，从73.5%提高到81.0%。此外，如果 只微调最后一个块的“一半”(即它的MLP子块)，可以得到79.1%，比线性探测好得多。这种变体本质上是微调一个MLP头。微调几个块(例如，4或6)可以达到接近完全微调的精度。

在图9中，还与MoCo v3[9]进行了比较，这是一种与ViT-L结果相对照的方法。MoCo v3具有较高的线性探测精度；但是，它的局部微调结果都比MAE差。当微调4块时，差距为2.6%。虽然MAE表示的线性可分性较差，但它们具有较强的非线性特征，在微调非线性head时表现良好。

这些观察表明，线性可分性并不是评价表征质量的唯一标准。还观察到(例如[8])，线性探测与迁移学习的性能没有很好的相关性，例如对于目标检测。据本文所知，在NLP中，线性评估并不经常用于基准的预训练。

迁移学习实验：

本文使用表3中的预训练模型来评估下游任务中的迁移学习。

目标检测和分割：

本文在COCO [37]上端到端微调Mask R-CNN [24]。ViT骨干网适用于FPN [36](见A.3)。本文将这种方法应用于表4中的所有条目。本文报告了用于目标检测的box AP 和用于实例分割的mask AP。

与有监督的预训练相比，MAE在所有配置下都表现得更好(表4)。使用更小的ViT-B，本文的MAE比监督预训练高2.4分(50.3比47.9，APbox)。更重要的是，使用更大的ViT-L，MAE预训练比监督预训练高出4.0分(53.3比49.3)。

基于像素的MAE 比基于token的BEiT 更好或相当，而MAE更简单、更快。

MAE 和 BEiT 都比MoCo v3好，而MoCo v3与有监督的预训练相当。

语义分割：

本文使用UperNet [63]在ADE20K [72]上进行实验(参见A.4)。表5显示，本文的预训练明显改善了监督预训练的结果，例如，ViT-L提高了3.7个点。基于像素的MAE也优于基于token的BEiT。这些观察结果与COCO的一致。

分类任务：

表6研究了iNaturalists [56] 和 Places[71]任务的迁移学习(见A.5)。在iNat上，本文的方法显示了强大的缩放行为：精度随着模型的增大而显著提高。本文的成绩大大超过了以前的最好成绩。在Places上，MAE优于之前的最佳结果[19，40]，这些结果是通过对数十亿张图像进行预训练而获得的。

像素与token：

表7比较了作为MAE重建目标的像素与 tokens 。虽然使用 dVAE tokens 比使用非归一化unnormalized像素更好，但在本文测试的所有情况下，它在统计上类似于使用归一化像素。这再次表明，对于MAE来说，标记化tokenization是不必要的。

Discussion and Conclusion：

深度学习的核心是简单、可扩展性强的算法。在自然语言处理中，简单的自监督学习方法(例如，[47,14,48,4])可以从指数缩放模型中获益。在计算机视觉中，尽管自监督学习取得了进展，但实用的预训练范式主要是受监督的(如[33,51,25,16])。在这项研究中，本文在ImageNet 和迁移学习中观察到，一种简单的自监督方法——自编码器——类似于NLP中的技术——提供了可扩展的优势。视觉中的自监督学习现在可能走上了与NLP相似的轨迹。

另一方面，本文注意到，图像和语言是不同性质的信号，这种差异必须谨慎处理。图像只是记录的光，没有语义分解成文字的视觉模拟。我们不尝试删除目标，而是删除最可能不形成语义段的随机patches。同样，本文的MAE重构像素，它们不是语义实体。然而，本文观察到(例如，图4) MAE推断出复杂的、整体的重构，这表明它已经学习了许多视觉概念，例如语义。本文假设这种行为是通过MAE中丰富的隐表示发生的。本文希望这一观点将启发未来的工作。

更广泛的影响：

所提出的方法基于训练数据集的学习统计来预测内容，因此将反映这些数据中的偏差，包括具有负面社会影响的偏差。该模型可能生成不存在的内容。在此基础上生成图像时，这些问题值得进一步研究和考虑。