【自监督论文阅读 2】MAE

hjxu2016

已于 2023-06-28 15:24:41 修改

阅读量1.2k

点赞数

分类专栏：文献阅读文章标签：论文阅读

于 2023-06-19 17:12:54 首次发布

本文链接：https://blog.csdn.net/hjxu2016/article/details/131287667

版权

24 篇文章 3 订阅

订阅专栏

论文地址：https://arxiv.org/pdf/2111.06377.pdf
github代码地址：https://github.com/facebookresearch/mae
沐神B站视频讲解地址(看这个视频就够了)：https://www.bilibili.com/video/BV1sq4y1q77t/?spm_id_from=333.1007.top_right_bar_window_history.content.click&vd_source=e768911f41969985adfce85914bfde8f
论文题目：Masked Autoencoders Are Scalable Vision Learners
论文作者： Kaiming He， Xinlei Chen，Saining Xie， Yanghao Li， Piotr Doll´ar， Ross Girshick

一、摘要

这篇文章，展示了在计算视觉领域，masked的自编码器(简称MAE)是一个可拓展的自监督学习器。
MAE的架构是比较简单的：随机mask图像块，然后重构失去的图像块，主要由两个设计构成：

非对称的encoder-decoder架构，其中encoder仅用于可见的图像块，decoder则是轻量的，基于基于潜在表征和mask的token来重构原始输入图像
本文发现，遮住更多的图像块，比如75%，可以得到一个平凡但有意义的自监督任务

基于以上设计，可以高效且有效的训练大模型，结果如下：

深度学习架构、能力都在不断的增长，在硬件快速增长的帮助下，模型很容易拟合100万张图像，并且开始像数亿张图像进军，当然，这些图像通常是公开，且未标注的。

NLP在自监督学习领域取得巨大成功，比如GPT、BERT(masked 的自编码器)等等，在概念上都是比较简易的：移除一定概率的内容，学习预测这些内容。这些方法可以训练超过1000亿个参数的广义NLP模型。

由于BERT取得巨大成功，masked的自编码器(MAE)应用到图像领域也引起了极大的兴趣，但是，视觉领域的自编码方法的进展仍然落后NLP。

是什么导致MAE在视觉和语言任务上的不同？作者做如下解答：

基于以上分析，本文提出了一个简单、有效、可拓展的masked 自编码器(MAE), 可以应用到视觉表征学习中，结构如下图所示：

在这里插入图片描述

step1：随机大比例Mask图像块，约75%; （为了解决图像信息冗余的问题，本文选择mask掉更多比例的patches）
step2：编码器仅应用在可见的图像块中; （双赢！即加快了计算速度，又提高的准确率。PS：掩码这么多都能还原，那表征信息肯定学的多呀）
step3：可见块的编码信息与共享权重的mask的token结合，送入到轻量化的decoder(另外一个Vit模型)中，重构原始图像；（将mask tokens转移到小的decoder中可以大大减少计算）
step3：仅将全部patch的编码器应用到下游任务中 (解码器后的信息丢弃)

下图展示了mask后的还原信息(PS: 这么少的图像patch, 都能有效还原，明显超过人类了)
在这里插入图片描述