©PaperWeekly 原创 · 作者|Chunyuan Li
单位|Microsoft Research Researcher
研究方向|深度生成模型
本文简要阐述了基于视觉和语言信息的多模态学习的缘由和发展现状,并介绍一种多模态预训练的方法 Oscar 来引导大家入门了解这个领域。为什么说是再次入门呢?因为前段时间在已经涌现出不少多模态预训练的方法,而我们展现一种另外一种打开多模态数据的方式,希望离多模态预训练的正确打开方式更近一些。
为什么关注多模态学习?
我们人类往往是通过多种渠道感知外部世界的,例如,用眼睛看到的图像,或者用耳朵听到的声音。尽管任何单个渠道可能都不完整或嘈杂,但是人类可以自然地对齐并融合从多个渠道收集的信息,以提取了解世界所需的关键概念。
人工智能的核心愿望之一是开发一种技术,以赋能计算机,使其具有从多模态(或多通道)数据中有效学习的能力。具体的一些功能,举例来说:
Visual Question Answering: 基于图片的语言问答
Image-Text Retrieval: 以文本为输入来搜索出与最语义上相似的图像
Image Captioning: 使用自然语言描述图像的内容
其它很多同时涉及到语言和图片的任务
从实用的角度讲,现代的计算机系统与人交互的信息通常也是模态的,包括语言,图片,语音等等, 比如微信里的对话方式,购物网站上的商品展示等等。多模态往往会比单一模态提供更加丰富的信息,达到更好的用户体验。
举个例子,在疫情状态下远程工作的我们,往往通过进行语音沟通,但有时候搭配着屏幕共享(视觉信息)是不是能更加愉快地聊天呢?这就是多模态学习的一种体现。
多模态学习初入门
最近,视觉和语言预训练(Vision-Language Pretraining, 简称 VLP)在解决多模态学习方面已显示出巨大的进步。这类方法最有代表性地通常包括如下两步:
预训练:是以自监督的方式在海量“图像-文本”数据(Image-Text Pair,或者叫做“图文对”)上训练大型的基于 Transformer 的模型(例如根据上下文预测被掩盖掉的语言或者图像的元素)
微调:可以对预训练模型的交叉模式表示进行微调,以适应各种下游视觉和语言任务
VilBERT [1] , LXMERT [2] , VL-BERT [3] , Unicoder-VL [4] , UNITER [5] , VLP [6] , 12-in-1 [7] , ...(闲话:排名不分先后,如有漏缺,请联系作者改动)
但是,现有的 VLP 方法只是将图像区域特征和文本特征连接起来作为模型的输入以进行预训练,并不为模型提供任何线索,希望模型能利用 Transformer 的自我注意机制,使用蛮力来学习图像文本语义对齐方式。
多模态学习再入门:格“物”以致知
在本文中,我们介绍一种新的多模态预训练方法 Oscar(Object-Semantics Aligned Pre-training):把物体用作视觉和语言语义层面上的定位点 (Anchor Point,或者成为锚点),以简化图像和文本之间的语义对齐的学习任务。
利用这一发现