目录
Masked Autoencoders Are Scalable Vision Learners
论文地址:Masked Autoencoders Are Scalable Vision Learners
论文代码:MAE—github
Abstract
在MoCo(未了解过的同学可以移步:Momentum Contrast)这篇论文中,作者最后这样总结道:“MoCo从ImageNet-1M到Instagram-1B的改进一直很明显,但相对较小,这表明更大规模的数据可能没有得到充分利用。我们希望使用高级的pretext task来改善这一点。也就是说除了简单的instance discrimination任务,例如在语言和视觉中还可以采用MoCo来执行诸如masked auto-encoding
(MAE,带掩码的自动编码器)之类的pretext task。”因此就有了这篇MAE论文。
本文证明了MAE是一种可扩展的计算机视觉自监督学习器
。MAE方法很简单:屏蔽输入图像的随机patches并重建缺失的像素。它基于两个核心设计:首先,使用了一个非对称编码器-解码器
体系结构,其中一个编码器只在可见的patches子集上运行(没有掩码的tokens),另一个轻量级解码器从潜在表示和掩码tokens重建原始图像。其次,作者发现设置输入图像的高比例(例如75%)会产生一项不平凡且有意义的自我监督任务。将这两种设计结合起来能够高效地训练大型模型:加快训练速度(提高3倍或更多,因为掩码比例如果在75%以上,那么只要计算输入图像的1/4或者更少,自然速度就加快了3倍或以上)并提高精度。该可扩展方法允许学习具有良好通用性的高容量模型:例如,在仅使用ImageNet-1K数据的方法中,普通的ViT-H模型的精度最高(87.8%)。下游任务中的迁移性能优于有监督的预训练,并表现出良好的伸缩行为。
Introduction
深度学习在过去一段时间内有着爆炸式的增长。在硬件快速增长的帮助下,如今的模型很容易超过100万张图像,并开始需要数亿张通常难以获取的