分享 | 视觉无监督学习新范式：MAE

最新推荐文章于 2024-05-10 07:30:34 发布

深兰深延AI

最新推荐文章于 2024-05-10 07:30:34 发布

阅读量2.7k

点赞数 1

文章标签： transformer 深度学习自然语言处理

本文链接：https://blog.csdn.net/shenlanshenyanai/article/details/121705002

版权

近日，FAIR的最新论文《Masked Autoencoders Are Scalable Vision Learners》提出了一种更简单有效的用于ViT无监督训练的方法MAE，并在ImageNet-1K数据集上的top-1 acc达到新的SOTA：87.8%（无额外训练数据）。

自从ViT火了之后，一些研究者就开始尝试研究ViT的无监督学习，比如Mocov3用对比学习的方法无监督训练ViT，此外也有一些研究开始借鉴BERT中的MLM（masked language modeling）方法，比如BEiT提出了用于图像的无监督学习方法：MIM（masked image modeling）。无疑，MAE方法也落在MIM的范畴，但整个论文会给人更震撼之感，因为MAE方法更简单有效。

NLP领域的BERT提出的预训练方法本质上也是一种masked autoencoding：去除数据的一部分然后学习恢复。这种masked autoencoding方法也很早就在图像领域应用，比如Stacked Denoising Autoencoders。但是NLP领域已经在BERT之后采用这种方法在无监督学习上取得非常大的进展，比如目前已经可以训练超过1000亿参数的大模型，但是图像领域却远远落后，而且目前主流的无监督训练还是对比学习。那么究竟是什么造成了masked autoencoding方法在NLP和CV上的差异呢？MAE论文从三个方面做了分析，这也是MAE方法的立意：

图像的主流模型是CNN，而NLP的主流模型是transformer，CNN和transformer的架构不同导致NLP的BERT很难直接迁移到CV。但是vision transformer的出现已经解决这个问题；
图像和文本的信息密度不同，文本是高语义的人工创造的符号，而图像是一种自然信号，两者采用masked autoencoding建模任务难度就不一样，从句子中预测丢失的词本身就是一种复杂的语言理解任务，但是图像存在很大的信息冗余，一个丢失的图像块很容易利用周边的图像区域进行恢复；
用于重建的decoder在图像和文本任务发挥的角色有区别，从句子中预测单词属于高语义任务，encoder和decoder的gap小，所以BERT的decoder部分微不足道（只需要一个MLP），而对图像重建像素属于低语义任务（相比图像分类），decoder需要发挥更大作用：将高语义的中间表征恢复成低语义的像素值。

基于这三个的分析，论文提出了一种用于图像领域（ViT模型）的更简单有效的无监督训练方法：MAE（masked autoencoder），随机mask掉部分patchs然后进行重建，其整体架构如下所示。

MAE采用encoder-decoder结构（分析3，需要单独的decoder），但属于非对称结构，一方面decoder采用比encoder更轻量级设计，另外一方面encoder只处理一部分patchs（visible patchs，除了masked patchs之外的patchs），而decoder处理所有的patchs。一个很重要的点，MAE采用很高的masking ratio（比如75%甚至更高），这契合分析2，这样构建的学习任务大大降低了信息冗余，也使得encoder能学习到更高级的特征。由于encoder只处理visible patchs，所以很高的masking r

最低0.47元/天解锁文章

深兰深延AI

关注

1
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
分享 | 视觉无监督学习新范式：MAE

近日，FAIR的最新论文《Masked Autoencoders Are Scalable Vision Learners》提出了一种更简单有效的用于ViT无监督训练的方法MAE，并在ImageNet-1K数据集上的top-1 acc达到新的SOTA：87.8%（无额外训练数据）。自从ViT火了之后，一些研究者就开始尝试研究ViT的无监督学习，比如Mocov3用对比学习的方法无监督训练ViT，此外也有一些研究开始借鉴BERT中的MLM（masked language modeling）方法，比如BEi.
复制链接

扫一扫