MAE论文解读

原创已于 2022-05-17 16:58:48 修改 · 3.2k 阅读

8 ·

CC 4.0 BY-SA版权

文章标签：

#计算机视觉 #深度学习 #自监督 #Transformer #MAE

于 2022-02-11 16:12:17 首次发布

论文详解同时被 3 个专栏收录

72 篇文章

订阅专栏

Transformer

8 篇文章

订阅专栏

自监督

1 篇文章

订阅专栏

本文探讨了Masked Autoencoders (MAE)在无监督视觉领域的突破，通过非对称编码和解码器设计，MAE在ImageNet-1K上实现87.8%的精度，且在finetuning时表现出强大性能。研究还对比了不同组件和策略，如masktoken、自监督方法、迁移至目标检测和语义分割。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

论文: 《Masked Autoencoders Are Scalable Vision Learners》
代码: https://github.com/facebookresearch/mae

创新点

本文说明掩码自编码器（MAE）在无监督视觉领域应用可行性；
MAE有两个重要设计：
1、非对称编、解码器；编码器仅处理可见patch，解码器通过潜在特征及mask位置重构原始图片；
2、mask遮挡大部分效果更佳，比如75%；
作者使用MAE预训练模型，在ImageNet-1K数据集上finetune后，acc达到87.8%，超越之前仅使用ImageNet-1K数据集结果。

算法原理

MAE整体流程如图1所示，
在这里插入图片描述
MAE主要包括以下部分：

Masking

1、跟随ViT（可以参考之前的文章ViT论文解读），将图片分为几个不重叠patch；
2、采样patch的一部分，剩余mask填充；

MAE encoder

将未遮挡patch及位置编码送入ViT编码器（Multi-Head Attention及MLP）；

MAE decoder

1、MAE decoder的输入为：
可见patch经过编码器结果以及mask token；每一个mask token可学习，指示是否有缺失patch需要预测；
2、MAE decoder仅在预训练阶段使用，用于执行图像重构任务，编码器仅用于生成图片特征，进而用于识别；

重构目标

decoder最后一层为线性映射层，使得输出channel与每个patch像素数量相等；
重构图片与原始图片在像素空间使用MSE损失函数；

实验

Baseline: ViT-Large.

作者使用过ViT-Large进行消融实验，原论文ViT性能76.5%，作者复现结果82.5%，MAE结果84.9%。此处MAE仅finetune50epoch，ViT训练200epoch，MAE性能可能更高；
在这里插入图片描述

消融实验

结果如表1，
在这里插入图片描述
表1a说明：解码器深度对于提升finetuning性能几乎无影响；
表1b说明：解码器宽度使用512维，因为其在微调和线性映射上表现最佳；
表1c说明：编码器不使用mask token，在微调及linear probing上性能最优，计算量降低3.3倍；
表1d说明：作者比较不同重构目标，比如：像素值是否做归一化，是否进行PCA降维；发现使用归一化像素值效果最佳；
表1e说明：作者比较不同数据增强方案影响： MAE使用仅裁剪的增强效果很好，无论是固定大小还是随机大小（都具有随机水平翻转）。添加颜色抖动会降低结果，因此我们不会在其他实验中使用它。
表1d说明：比较mask不同采样方案（random、block、grid）影响，如图6，结果证明随机采样效果最佳；
在这里插入图片描述