ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations for Vision-and-Language Tasks
论文作者:
Jiasen Lu, Dhruv Batra, Devi Parikh, Stefan Lee(佐治亚理工学院、俄勒冈州立大学、Facebook AI Research)
点此进入“论文地址”
摘要
本文提出ViLBERT(Vision-and-Language BERT),该模型学习图像内容和自然语言的无任务偏好的联合表征。ViLBERT在BERT的基础上扩展为多模态双流模型,在各自的流中处理图像和文本输入,这两个流通过共注意力transformer层进行交互。该模型在Conceptual Captions数据集上进行预训练,再将其迁移应用到多个视觉-语言任务:视觉问答,视觉常识推理,指示表达(referring expressions)和基于字幕的图像检索。ViLBERT应用到下游任务时仅需对基础架构进行少量添加。实验结果表明本文的ViLBERT在4个下游任务中显著优于面向特定任务的最先进模型。
ViLBERT代表了一种转向:从将学习视觉和语言之间的基础知识仅作为任务训练的一部分,转向将视觉基础知识作为一种可预训练和可迁移的能力。
介绍
视觉理解任务包括通过在图像、视频甚至整个3D环境中生成或响应自然语言已经取得了稳步的进展。这些方法和对应的任务可以归为"vision-and-language"。尽管人们普遍需要将自然语言和视觉刺激结合起来,即进行视觉基础训练,但用于vision-and-language任务的方法缺乏一个统一的基础以提升这种能力。相反,最主要的策略是先基于其他大规模任务分别预训练语言和视觉模型,然后将其作为具体任务训练的一部分学习基础知识。这种方案学习到的基础知识并不牢靠,当视觉-语言数据有限或有偏时,模型泛化能力很差。
先预训练再迁移的学习方案在计算机视觉和自然语言处理中广为应用。这种易用且表示能力强大的方案已经成为标配。对于vision-and-language任务来说使用这种方案当然也是必不可少的,与此同时考虑视觉和语言之间的关系也同等重要。比如即使狗品种分类的视觉表征是完美的,但是当下游vision-and-language模型无法将该视觉表征与形如"小猎犬"或"牧羊人"这样的近似短语进行关联时,这种完美的视觉表征也是近乎无用。因此,本文提出一种通用的视觉基础模型,这种模型可以学习上述的这些联系,并将它们运用到多个vision-and-language任务中。换句话说,ViLBERT是面向视觉基础的预训练。
为学习视觉和语言的联合表征,本文参照了最近在自监督学习方面取得的成果。在NLP领域的佼佼者如ELMo、BERT、GPT等,这些模型都取得了令人瞩目的成果。本文通过类似的方法来学习视觉基础知识,我们需要先确定一个视觉和语言能够相互对应的数据集。本文选用的是Conceptual Captions数据集,该数据集大概包括330万张图像,每张图像带有弱关联的描述标题。这些图像均来源于网络上带有alt-text的图像。补充一点,所谓alt-text是在html语法中图片的替代文字,当图片失效或是无法显示时,浏览器显示会被文字替代。
本文提出的ViLBERT是一个能够从视觉-语言数据集中学习到任务无关的视觉基础知识的联合模型。ViLBERT扩展了BERT模型以共同推理文本和图像。本文的关键创新点在于提出一种双流机制,即分别面