【arVix 2021】Masked Autoencoders Are Scalable Vision Learners(MAE)

在这里插入图片描述

摘要

本文证明了遮罩自动编码器(MAE)是一种可扩展的计算机视觉自监督学习器。我们的MAE方法很简单:我们掩盖输入图像的随机补丁,并重建缺失的像素。它基于两个核心设计。首先,我们开发了一个非对称的编码器-解码器体系结构,其中的编码器只对可见的补丁子集(没有掩码标记)进行操作,同时还有一个轻量级解码器,可以从潜在表示和掩码标记重建原始图像。其次,我们发现掩蔽高比例的输入图像,例如75%,会产生一个不平凡而有意义的自我监督任务。将这两种设计结合起来,使我们能够高效地训练大型模型:我们加快了训练(3个或更多),并提高了准确性。

Our scalable approach allows for learning high-capacity models that generalize well: e.g., a vanilla ViT-Huge model achieves the best accuracy (87.8%) among methods that use only ImageNet-1K data. Transfer performance in downstream tasks outperforms supervised pretraining and shows promising scaling behavior
我们的可扩展的方法允许学习高容量的模型,这些模型具有很好的通用性:例如,在使用仅ImageNet-1K数据的方法中,一个普通的v - huge模型获得了最好的准确性(87.8%)。下游任务的迁移性能优于监督前训练,表现出良好的扩展行为。

引言

We ask: what makes masked autoencoding different between vision and language?

  1. 架构不同。 在视觉领域,卷积网络[29]在过去十年中占据主导地位。卷积通常在规则的网格上运行,将遮罩令牌[14]或位置嵌入[47]等指标集成到卷积网络中并不容易。然而,这个架构上的差距已经通过Vision transformer (ViT)[16]的引入得到了解决,应该不再是一个障碍了。

  2. 信息密度不同。 语言是人类产生的高度语义和信息密集的信号。当训练一个模型每句只预测几个遗漏的单词时,这个任务似乎会诱发复杂的语言理解。与此相反,图像是具有严重空间冗余的自然信号,例如,缺失的补丁可以从邻近的补丁中恢复,而对部分、物体和场景的理解很少。

    为了克服这一差异并鼓励学习有用的特征,我们展示了一种简单的策略在计算机视觉中工作得很好:掩蔽很大一部分的随机补丁。这种策略在很大程度上减少了冗余,并产生了挑战性的自我监督任务,需要超越低级图像统计的整体理解。要对我们的重构任务有一个定性的了解,请参见图2-4

  3. 自动编码器的解码器,将潜在的表示映射回输入,在重建文本和图像之间扮演着不同的角色。在视觉中,解码器重构像素,因此其输出的语义级别低于一般的识别任务。这与语言相反,在语言中,解码器会预测包含丰富语义信息的缺失单词。我们发现,对于图像来说,解码器的设计在决定学习的潜在表征的语义水平上起着关键作用。

-

Figure 2. Example results on ImageNet validation images. For each triplet, we show the masked image (left), our MAE reconstruction†
(middle), and the ground-truth (right). The masking ratio is 80%
, leaving only 39 out of 196 patches. More examples are in the appendix.
†As no loss is computed on visible patches, the model output on visible patches is qualitatively worse. One can simply overlay the output with the visible patches to improve visual quality. We intentionally opt not to do this, so we can more comprehensively demonstrate the method’s behavior. (遮罩图片,重构图片,原图)

在这里插入图片描述

图3: 使用在ImageNet上训练的MAE对COCO验证图像的示例结果(与图2中的模型权重相同)。
观察最右边两个例子的重构,尽管与地面事实不同,但语义上是可信的。

在这里插入图片描述

Figure 4. Reconstructions of ImageNet validation images using an MAE pre-trained with a masking ratio of 75% but applied on inputs with higher masking ratios. The predictions differ plausibly from the original images, showing that the method can generalize.

本文的工作:
Our MAE masks random patches from the input image and reconstructs the missing patches in the pixel space. It has an asymmetric encoderdecoder design. Our encoder operates only on the visible subset of patches (without mask tokens), and our decoder is lightweight and reconstructs the input from the latent representation along with mask tokens (Figure 1). 我们的MAE从输入图像中屏蔽随机的补丁,并在像素空间中重建缺失的补丁。它有一个非对称的编码器解码器设计。我们的编码器只对可见的补丁子集(没有掩码标记)进行操作,而我们的解码器是轻量级的,并从潜在表示和掩码标记重建输入(图1)。

在这里插入图片描述

Figure 1. Our MAE architecture. During pre-training, a large random subset of image patches (e.g., 75%) is masked out. The encoder is applied to the small subset of visible patches. Mask tokens are introduced after the encoder, and the full set of encoded patches and mask tokens is processed by a small decoder that reconstructs the original image in pixels. After pre-training, the decoder is discarded and the encoder is applied to uncorrupted images to produce representations for recognition tasks. 该编码器应用于可见补丁的小子集。在编码器之后引入掩码令牌,由一个小解码器对全部编码的patch和掩码令牌进行处理,以像素重建原始图像。在预训练之后,解码器被丢弃,编码器被应用于未损坏的图像,以产生识别任务的表示。 (decoder前面的一列就是 重构结果。)

重点贡献:
在我们的非对称编码器-解码器中,将掩码令牌转换为小型解码器(Shifting the mask tokens to the small decoder )可以大大减少计算量。在这种设计下,一个非常高的掩蔽率(如75%)可以实现一个双赢的场景:它优化了精度,同时允许编码器只处理一小部分(如25%)的补丁。这可以将整个训练前的时间减少3个或更多,同样也可以减少内存消耗,使我们能够轻松地将MAE扩展到大型模型。

取得的效果:
我们也评估迁移学习的对象检测,实例分割,和语义分割。在这些任务中,我们的预训练比监督预训练获得了更好的结果,更重要的是,我们通过扩大模型观察到显著的收获。

方法

与传统的自动编码器不同,我们采用了一种非对称设计,允许编码器只对部分观测信号(没有掩码标记)进行操作,并使用一个轻量级解码器,从潜在表示和掩码标记重建完整的图像。

masking

和ViT[16]一样,我们将图像划分为规则的非重叠的patch。然后,我们对一个子集的补丁进行采样,并对剩余的补丁进行掩码(即删除)。我们的抽样策略是直接的:我们随机抽样,不更换,遵循均匀分布。我们称之为随机抽样
高掩蔽比(即被移除的patch的比例)的随机采样在很大程度上消除了冗余,从而创建了一个很难通过可见的邻近patch外推来解决的任务(见图2-4)。
均匀的分布防止了潜在的中心偏差(即在图像中心附近有更多的被屏蔽的补丁)。最后,高度稀疏的输入为设计一种高效的编码器创造了机会。

MAE encoder

我们的编码器是一个ViT[16],但只适用于可见的,未屏蔽补丁。就像在标准ViT中一样,我们的编码器通过添加位置嵌入的线性投影来嵌入补丁,然后通过一系列Transformer块来处理结果集。
然而,我们的编码器只能在一个小的子集上工作(例如,25%)。屏蔽补丁被移除;没有使用掩码标记。这允许我们训练非常大的编码器,只需要一小部分的计算和内存。完整的数据集由轻量级解码器处理。

MAE decoder

MAE解码器的输入是由(i)编码的可见补丁和(ii)掩码标记组成的完整标记集。
参见图1。每个掩码令牌[14]都是一个共享的、学习过的向量,表示存在一个缺失的补丁来预测。
我们将位置嵌入添加到这个完整集合中的所有标记中;如果不这样做,遮罩令牌在图像中就不会有关于它们位置的信息。解码器还有另一系列Transformer块。
MAE解码器仅在训练前用于执行图像重建任务(仅编码器用于产生图像表示进行识别)。 因此,解码器体系结构可以以独立于编码器设计的方式灵活设计。我们用非常小的解码器进行实验,比编码器更窄更浅。例如,我们的默认解码器与编码器相比,每个令牌的计算量为<10%。在这种非对称设计中,完整的令牌集合只由轻量级解码器处理,这大大减少了预训练时间。

Reconstruction target.

我们的MAE通过预测每个掩蔽块的像素值来重建输入。 解码器输出的每个元素都是代表一个patch的像素值向量。解码器的最后一层是一个线性投影,其输出通道数等于一个patch中的像素值数。解码器的输出被重塑以形成重构图像。我们的损失函数计算重建图像和原始图像在像素空间中的均方误差(MSE)。我们只计算屏蔽补丁的损失加粗样式,类似于BERT [14].1

我们还研究了一种以每个掩蔽块的归一化像素值为重建目标的变量。具体来说,我们计算一个patch中所有像素的均值和标准差,然后用它们来归一化这个patch。在实验中,使用归一化像素作为重建目标提高了表示质量。

Simple implementation.

我们的MAE预训练可以有效地执行,而且重要的是,加粗样式不需要任何专门的稀疏操作。

  1. 首先,我们为每个输入补丁生成一个标记(通过添加位置嵌入的线性投影)。
  2. 接下来,我们将随机洗牌列表,并根据屏蔽比率删除列表的最后一部分。
  3. 这个过程为编码器生成一个小的令牌子集,相当于不替换的采样补丁。
  4. 编码后,我们将一个掩码令牌列表添加到已编码的补丁列表中,并对整个列表进行反洗牌(颠倒随机洗牌操作),以将所有令牌与其目标对齐。
  5. 解码器应用于这个完整的列表(添加了位置嵌入)。

如前所述,不需要进行稀疏操作。这个简单的实现引入了可以忽略不计的开销,因为拖曳和unshuf- fling操作是快速的。

总结

可扩展性好的简单算法是深度学习的核心。在NLP中,简单的自我监督学习方法(例如,[40,14,41,4])可以从指数缩放模型中获益。在计算机视觉中,尽管在自我监督学习方面取得了进展,但实际的训练前范式仍主要受到监督(如[28,44,24,16])。在本研究中,我们在ImageNet和迁移学习中观察到,一个简单的自监督方法,类似于NLP中的技术,可以提供可扩展的好处。视觉中的自我监督学习现在可能正走上与NLP相似的轨迹。

另一方面,我们注意到,图像和语言是不同性质的信号,必须仔细处理这种差异。图像只是光的记录,没有语义分解成文字的视觉模拟。我们不是试图删除对象,而是删除那些很可能不会形成语义段的随机补丁。同样,我们的MAE重建像素,像素不是语义实体。然而,我们观察到(如图4),我们的MAE推断出复杂的、整体的重建,表明它已经学习了许多视觉概念,即语义。我们假设这种行为是通过MAE内部丰富的隐藏表示发生的。我们希望这一观点将激励未来的工作。

广泛的影响

提出的方法基于训练数据集的学习统计数据预测内容,因此将反映这些数据中的偏见,包括具有负面社会影响的偏见。模型可能生成不存在的内容。这些问题需要进一步的研究和考虑,以此工作为基础生成图像。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

_Summer tree

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值