关注公众号,发现CV技术之美
本文分享论文『Multimodal Masked Autoencoders Learn Transferable Representations』,思考:多模态数据也能进行MAE?UC Berkeley&Google提出M3AE,在图像和文本数据上进行MAE!文本的最优掩蔽率可达75%,显著高于BERT的15%!
详细信息如下:
论文链接:https://arxiv.org/abs/2205.14204
项目链接:未开源
01
摘要
构建可扩展的模型以从多样化、多模态的数据中学习仍然是一个开放的挑战。对于视觉语言数据,主要的方法是基于对比学习目标,即为每个模态训练单独的编码器。虽然有效,但对比学习方法会根据使用的数据增加引入抽样偏差,这会降低下游任务的性能。此外,这些方法仅限于成对的图像文本数据,无法利用广泛可用的未成对数据。
在本文中,作者研究了一个仅通过掩蔽token预测训练的大型多模态模型,在不使用模态特定编码器或对比学习的情况下,可以学习下游任务的可迁移表示。作者提出了一种简单且可扩展的网络架构,即多模态掩蔽自动编码器(Multimodal Masked Autoencoder,M3AE),它通过掩蔽token预测学习视觉和语言数据的统一编码器。
作者对在大规模图像文本数据集上训练的M3AE进行了实证研究,发现M3AE能够学习可迁移的表示,并能很好地迁移给下游任务。由于两种数据模式的联合训练,与标准掩蔽率为15%的BERT相比,M3AE受益于更高的文本掩蔽率(50-90%)。作者还提供了定性分析,表明学习到的表征融合了来自图像和语言的有意义信息。最后,作者展示了M3AE的可扩展性,它具有更大的模型大小和训练时间,以及在成对图像文本数据和未成对数据上训练的灵活性。
02
Motivation
随着神经结构和硬件性能的快速发展,自监督预训练在自然语言处理(NLP)和视觉方面取得了巨大的进步。基本思想通常被称为掩蔽token预测,概念上很简单:模型学习预测删除的部分数据。mask token预测为NLP和vision中的预训练提供了非常成功的方法,包括Transformer、GPT、BERT和MAE。这些经过预训练的表示方法已被证明可以很好地推广到各种下游任务。随着预训练数据多样性和模型容量的扩大,对各种下游任务的泛化仍然没有停滞的迹象。
在NLP