何恺明大神代表之自监督学习MAE,简单高效。(凡人很难望其项背。。。)

关注我,发现生活之美.公众号【群函数】

本篇文章阅读大约需要10分钟左右。

首先,基本概念介绍:

自监督学习是一种机器学习方法,其目标是从无标签的数据中学习有用的表示,而无需外部的监督信号。在自监督学习中,模型通过设计自己的监督任务来学习数据的内在结构和特征,而不是依赖于人工标记的标签。这种方法使得模型能够从大规模未标记数据中学到丰富的表示,为后续的任务提供更好的初始化或预训练。

应用领域:

  1. 计算机视觉: 在图像处理和计算机视觉领域,自监督学习被广泛用于图像表示学习、目标检测、图像分割等任务。对比学习和自编码器是常见的自监督学习方法。

  2. 自然语言处理: 在自然语言处理领域,自监督学习被用于学习词向量、句子表示等。例如,通过预测句子中缺失的部分或通过对语言模型的预训练来实现。

  3. 无人驾驶和机器人: 在无人驾驶和机器人领域,自监督学习可以用于学习环境表示,以帮助机器人在复杂环境中导航和执行任务。

MAE文章摘要

掩码自编码器MAE方法很简单:遮挡输入图像的随机区域并重建缺失的像素。首先,作者开发了一种不对称的编码器-解码器架构,其中编码器仅对可见的区域进行操作(没有遮挡标记),并且具有轻量级的解码器,从潜在表示和遮挡标记中重建原始图像。其次,作者发现对输入图像进行高比例的遮罩(例如75%)可以产生一个卓越且有意义的自监督任务。将这两个设计结合起来使我们能够高效而有效地训练大型模型。作者的可扩展方法允许学习高容量的模型,具有良好的泛化性能。

图片

发表期刊(会议):

CVPR2022

论文地址:

https://arxiv.org/pdf/2111.06377.pdf

代码地址:

https://github.com/facebookresearch/mae

实验条件:

没找到。。。

作者单位:

脸书AI研究院

MAE前世今生

深度学习目睹了一系列不断增长能力和容量的架构的爆炸性增长[33, 25, 57]。在硬件迅速提升的帮助下,现代模型可以轻松地过拟合一百万张图像[13],并且开始需求数亿个——通常是公众无法获取的——标记图像[16]。

在自然语言处理(NLP)领域,对数据的这种需求已经成功地通过自监督预训练得到解决。基于GPT中的自回归语言建模[47, 48, 4]和BERT中的遮蔽自编码[14]的解决方案在概念上很简单:它们去除数据的一部分并学会预测被去除的内容。这些方法现在能够训练包含超过一千亿参数的可泛化的NLP模型[4]。

掩码自编码器的概念,是更一般的去噪自编码器的一种形式[58],在计算机视觉中也是自然而适用的。事实上,在BERT之前,与之密切相关的关于视觉的研究[59, 46]已经存在。然而,尽管在BERT取得成功后,人们对这一想法产生了相当大的兴趣,但在视觉中的自编码方法的进展却落后于NLP。我们提出问题:在视觉和语言之间,是什么使遮蔽自编码有所不同?我们试图从以下角度回答这个问题:

(i) 直到最近,视觉和语言的架构是不同的。在视觉中,卷积网络[34]在过去的十年中占主导地位[33]。卷积通常在规则网格上操作,将“指示符”(如遮挡标记[14]或位置嵌入[57])整合到卷积网络中并不直观。然而,随着Vision Transformers(ViT)[16]的引入,这一架构差距不再是障碍。

(ii) 语言和视觉之间的信息密度是不同的。语言是人类生成的信号,具有高度语义和信息密度。当训练模型仅预测每个句子中少数缺失单词时,这个任务似乎会引发复杂的语言理解。相反,图像是具有丰富空间冗余性的自然信号——例如,可以从邻近区域恢复丢失的补丁,而无需对部分、物体和场景有很高的理解。为了克服这种差异并促使学习有用的特征,我们展示在计算机视觉中一个简单的策略效果良好:对随机区域的极高比例进行遮罩。这种策略大大减少了冗余,并创建了一个具有挑战性的自监督任务,需要超越低级图像统计的整体理解。为了感受我们重建任务的质量,可以参考图2至图4。

图片

图片

图片

(iii) 自编码器的解码器,将潜在表示映射回输入,在重构文本和图像之间起到不同的作用。在视觉中,解码器重构像素,因此其输出在语义水平上低于常见的识别任务。这与语言不同,语言中解码器预测包含丰富语义信息的缺失单词。虽然在BERT中解码器可以是简单的(MLP)[14],但我们发现在图像中,解码器的设计在确定学到的潜在表示的语义水平上起着关键作用。

受到这一分析的启发,作者提出了一种简单、有效且可扩展的遮罩自编码器(MAE)形式,用于视觉表示学习。

MAE匠心独运

图片

图1 MAE结构。在预训练阶段,会遮挡掉图像的一个大的随机子集(例如,75%的区域)。编码器被应用于可见区域的小子集。在编码器之后引入遮罩标记,然后通过一个小的解码器处理完整的编码区域和遮罩标记集,以像素形式重构原始图像。在预训练之后,解码器被丢弃,而编码器被应用于未损坏的图像(完整的区域集)进行识别任务。

MAE是一种简单的自编码方法,可以根据其部分观察来重构原始信号。与所有自编码器一样,我们的方法具有一个编码器,将观察到的信号映射到潜在表示,以及一个解码器,从潜在表示中重构原始信号。与传统的自编码器不同,我们采用了一种不对称设计,允许编码器仅在部分观察到的信号(没有遮罩标记)上进行操作,并使用轻量级的解码器从潜在表示和遮罩标记中重构完整的信号。图1说明了下面介绍的这个思想。

遮挡。

遵循ViT [16]的方法,作者将图像分为规则且不重叠的区块。然后对一部分区块进行采样,将其余的区块进行遮挡(即,移除)。我们的采样策略很简单:我们无替换地随机采样区块,遵循均匀分布。我们简称这个过程为“随机采样”。高遮罩比例的随机采样大大减少了冗余,从而创造了一个不能轻易通过对可见邻近区块进行外推解决的任务(见图2-4)。均匀分布防止了潜在的中心偏差(即,在图像中心附近遮罩的区块更多)。最后,高度稀疏的输入为设计一个高效的编码器提供了机会。

MAE编码器

MAE编码器是一个ViT [16],但仅应用于可见的、未遮挡的区块。就像标准的ViT一样,我们的编码器通过线性投影和添加位置嵌入来嵌入区块,然后通过一系列Transformer块处理结果。然而,MAE的编码器仅在完整集合的一个小子集上运行(例如,25%)。遮罩的区块被移除,不使用遮罩标记。这使我们能够使用仅占计算和内存的一小部分来训练非常大的编码器。完整集合由一个轻量级解码器处理,下面将对其进行描述。

MAE解码器

MAE解码器的输入是由(i)编码的可见区块和(ii)遮挡标记组成的完整标记集合。见图1。每个遮罩标记[14]都是一个共享的、学到的向量,指示了缺失的存在。我们为这个完整集合中的所有标记添加位置嵌入;如果没有这个操作,遮挡标记将无法了解它们在图像中的位置。解码器还包括另一系列Transformer块。

MAE解码器仅在预训练期间用于执行图像重构任务(只有编码器用于生成用于识别的图像表示)。因此,解码器架构可以灵活设计,与编码器设计独立。作者尝试使用非常小的解码器,比编码器更窄和更浅。例如,作者的默认解码器每标记计算的计算量比编码器少10%。通过这种不对称设计,完整集合的标记仅由轻量级解码器处理,大大减少了预训练时间。

重构目标

MAE通过预测每个遮罩区块的像素值来重构输入。解码器输出的每个元素都是表示一个区块的像素值的向量。解码器的最后一层是一个线性投影,其输出通道数等于区块中像素值的数量。解码器的输出被重新整形以形成一个重构的图像。损失函数计算在像素空间中重构图像与原始图像之间的均方误差(MSE)。作者仅在遮罩区块上计算损失,类似于BERT [14]。我们还研究了一个变体,其重构目标是每个遮罩区块的标准化像素值。具体来说,作者计算区块中所有像素的均值和标准差,并用它们来标准化该区块。在我们的实验中,使用标准化的像素作为重构目标可以改善表示质量。

MAE卓越性能

MAE学习非常高容量的模型,具有良好的泛化性能。通过MAE预训练,我们可以在ImageNet-1K上训练像ViT-Large/-Huge [16]这样对数据需求很大的模型,并且具有改进的泛化性能。使用一个普通的ViT-Huge模型,在ImageNet-1K上微调时,实现了87.8%的准确性。这超过了所有仅使用ImageNet-1K数据的先前结果。作者还评估了在目标检测、实例分割和语义分割上的迁移学习。在这些任务中,我们的预训练结果优于其监督预训练对应物,更重要的是,我们观察到通过扩大模型规模可以获得显著的收益。这些观察结果与自监督预训练在NLP中所见到的相一致[14, 47, 48, 4]。

图片

图片

图片

图片

MAE未来展望

简化而且能够良好扩展的算法是深度学习的核心。在自然语言处理领域,简单的自监督学习方法(例如,[47, 14, 48, 4])使得模型能够呈指数级增长。然而,在计算机视觉领域,实际的预训练范式主要是监督的(例如,[33, 51, 25, 16]),尽管在自监督学习方面也取得了一些进展。在这项研究中,作者在ImageNet和迁移学习中观察到,自编码器——一种类似自然语言处理中的技术的简单自监督方法——提供了可扩展的优势。计算机视觉中的自监督学习现在可能正在走上类似自然语言处理的轨迹。

另一方面,作者注意到图像和语言是不同性质的信号,这种差异必须谨慎处理。图像仅仅是记录的光,没有语义分解成视觉类似于词汇的单元。作者并不试图移除物体,而是移除最有可能不构成语义段的随机区块。同样,我们的遮罩自编码器重构的是像素,而不是语义实体。然而,我们观察到(例如,图4),我们的遮罩自编码器推断出复杂而整体的重构,表明它已经学到了许多视觉概念,即语义。我们假设这种行为是通过遮罩自编码器内部的丰富隐藏表示发生的。我们希望这个观点能够激发未来的研究。

更广泛的影响。作者所提出的方法基于对训练数据统计的学习来预测内容,因此会反映出这些数据中的偏见,包括那些具有负面社会影响的偏见。模型可能会生成不存在的内容。这些问题需要在进一步研究时加以考虑,特别是在构建基于这项工作生成图像时。

参考文献:

【1】He K, Chen X, Xie S, et al. Masked autoencoders are scalable vision learners[C]//Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2022: 16000-16009.

关注我,发现生活之美.公众号【群函数】

  • 6
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值