Masked Autoencoders Are Scalable Vision Learners 论文研读

herosunly

已于 2024-01-24 20:47:34 修改

阅读量4.9k

点赞数 14

分类专栏：预训练模型文章标签： transformer 深度学习计算机视觉 MAE

于 2021-12-11 17:08:28 首次发布

本文链接：https://blog.csdn.net/herosunly/article/details/121874941

版权

预训练模型专栏收录该内容

2 篇文章 1 订阅

订阅专栏

NLP	CV
Transformer	ViT
BERT	MAE

其中DAE指的是去噪的自编码器。
文章目录 1. 标题 2. 摘要 3. 模型架构 4. 结论

1. 标题

Masked Autoencoders Are Scalable Vision Learners指的是带掩码的自编码器是可扩展的视觉学习器。其中这里的Autoencoders指的是模型的输入和输出都是相同的，简单来说Autoencoder=encoder+decoder。

作者其中包括了ResNet的第一作者何恺明大神。

2. 摘要

MAE的方法比较简单：对输入图片进行随机块的mask，然后对mask块中的像素进行重构。核心设计主要是源于两点。

第一，设计了非对称的编码器和解码器架构，其中编码器仅对没有进行mask的区域进行编码，解码器是轻量级的，能够重构原始的图片。

第二，如果对图片中绝大多数的区域进行mask，比如75%，就会得到一个很有意义的自监督任务。

通过上述两个设计，就能够更加有效地训练大模型，如训练速度提升3倍，并且提高训练的精度。

在ViT-Huge的模型中仅仅使用100W的数据就能得到(87.8%)的准确率。在下游任务进行迁移学习的效果优于有监督的预训练。

3. 模型架构

在这里插入图片描述
其中masked的块被涂成灰色（绝大部分）。将没有masked的区域作为encoder(ViT)的输入，将其输出填入到新构建的长向量中。灰色部分只包含了位置向量填入到新构建的长向量中。然后将长向量输入到decoder中，最终还原出整个原来的图片。encoder的模型复杂度大于decoder。

4. 结论

简单的算法具有一定的扩展性，是深度学习的核心。在NLP中，简单的自监督学习方法得到了成功的应用。但在计算机视觉中，预训练范式绝大多数还是有监督的方法。在本研究中，使用了autoencoder进行类似于NLP的自监督学习。

在另一方面，由于图像和语言数据的本质并不相同，所以必须谨慎进行处理。在NLP中，一个词是一个语义的单元，包含的语义信息是比较多的。在图像中，虽然每个patch包含一定的语义信息。但它并不是一个语义的segment。MAE能够学习到比较好的语义表达。

herosunly

关注

14
点赞
踩
15

收藏

觉得还不错? 一键收藏
打赏
2
评论
Masked Autoencoders Are Scalable Vision Learners 论文研读

1. 标题2. 摘要3. 模型架构4. 结论# 1. 标题Masked Autoencoders Are Scalable Vision Learners指的是带掩码的自编码器是可扩展的视觉学习器。其中这里的Autoencoders指的是模型的输入和输出都是相同的，简单来说Autoencoder=encoder+decoder。作者其中包括了ResNet的第一作者何恺明大神。
复制链接

扫一扫