通用的图像-文本语言表征学习:多模态预训练模型 UNITER
导读: 联合图像-文本的表征学习为大多数视觉+语言 ( V+L ) 任务的基础,一般通过联合处理多模态输入,得到用于实现对视觉和文本的理解。但是,这种特征通常是针对特定任务的。在本文将介绍一种通用的图像-文本表征学习 UNITER。UNITER 是通过在四个图像-文本数据集 ( COCO, Visual Genome, Conceptual Captions, and SBU Captions ) 上进行大规模的预训练而获得的,可以通过联合多模态嵌入为异构下游 V+L 任务提供支持。
研究人员设计了三个预训练的任务:掩蔽语言建模 ( MLM )、图像-文本匹配 ( ITM ) 和掩蔽区域建模 ( MRM )。UNITER 在6个 V+L 任务 ( 超过9个数据集 ) 上实现了新的技术水平,包括可视化问题回答 、图像-文本检索、引用表达式理解、视觉常识推理、视觉蕴涵和 NLVR2。
具体分享内容如下:
-
背景
-
UNITER 训练数据集
-
UNITER 预训练模型
-
UNITER 下游任务组成
-
结论
▌背景
我们的工作都是在研究 Vision 和 Language,这些任务需要的模型不仅要对图像或者其他视觉输入进行识别,而且对自然语言也要有很好的理解。这些研究都是在图像和自然语言处理的交界处,所以近年来涌现了很多有意思的新方向。例如:
-
Image Captioning:给定一张图片,我们可以概括图片内容;
-
Visual Question Answering:对这张图片进行提问,让模型回答相关的问题;
-
Dense Captioning:我们也会对图片的细节感兴趣,针对图片的特定区域进行描述;
-
Referring Expressions:给定一个描述语句,并定位该语句的指定区域;
-
Visual Dialogue:针对图片还可以进行多轮问答。
▌UNITER 训练数据集
在过去的五年中,Vision+NLP 的研究者们做出了很多的努力,提出了很多新的任务,同时建立了多个大的数据集,以下列出的是其中非常有名的数据集:
1. 免费数据集上的自监督学习
上面所提到的标注数据需要大量的资金支持,并不是所有研究所都有这个资本收集获得这样的数据集。我们都知道这样的标注数据是很有用的,但是图片和文本本身就带有这样的标注信息,我们通过自监督的方式进行学习。
① Self-SupervisedLearning for Vision
在图像中我们可以训练 CNN 模型对一张灰度图片进行上色,从而用 CNN 来学习对这张图片的表示,这样的图片在网上也是随处可见的。我们还可以使用其他的任务来训练 CNN 对图片的表示,然后使用这些图片表示来应用到其他分类任务上面。
② Self-SupervisedLearning for NLP
在最近一年中,NLP 也有了很大的突破,具有代表性的工作是 Bert 和 GPT2。这两个任务都是使用 Transfomer,Bert 应用的是 Transforme