摘要
现有的VLP方法严重依赖图像特征提取过程,大多包含区域监督(如目标检测)和卷积的结构(如ResNet)。尽管在文献中忽略,但我们发现有两个问题:1)效率/速度,仅仅提取特征就比多模态交互步骤需要更多的计算;2)表达能力,因为它是视觉嵌入器及其预定义的视觉词汇的表达能力上限。本文,我们提出一个最小的VLP模型--视觉和语言Transformer(ViLT),将视觉输入的处理大大简化为与处理文本输入相同的无卷积方式。我们证明了ViLT比以前的VLP模型快几十倍,且具有竞争力或更好的下游任务性能。
一、介绍
使用预训练和微调方式的这些模型通过图像文本匹配和掩码语言建模目标在图像和它们对齐的描述上预训练,并对视觉和语言下游任务微调,其中输入涉及两个模态。
大多VLP的研究都集中于通过增加视觉嵌入器的能力来提高性能。这种具有较重的视觉嵌入器的缺点往往被忽略,因为区域特征通常在训练时预先缓存,以减轻特征提取的负担,然而,这种限制在现实世界的应用中仍然很明显,因为野外的查询必须经历一个缓慢的提取过程。
因此,我们关注视觉输出的轻量级和快速嵌入上。最近的工作证明,使用一个简单的补丁的线性投影足够有效,在输入transformer之前嵌入像素。我们假设,在VLP模型中用于模态交互的transformer模块也可以处理视觉特征来代替卷积视觉嵌入器。
本文提出了一种视觉和语言Transformer(ViL),以统一方式处理两个模态。与以前VLP模型的不同在于其浅层、无卷积嵌入像素级输入,删除仅用于视觉输入的深度嵌入器,可以显著减少模型的尺寸和运行时间。图1表示,我们的参数高效模型比具有区域特征的VLP模型快几十倍,至少比具有网格特征的VLP模型快四倍,同时在视觉和语言下游任务上表现出相似甚至更好的表现。
本文主要贡献如下:1)ViLT委托transformer模块提取和处理视觉特征,以代替单独的深度视觉嵌入器,是视觉和语言模型中最简单的架构。这种设计本质上有了显著的运行时间和参数效率。2)这是第一次在不使用区域特征或深度卷积视觉嵌入器的情况下,在视觉语言任务上实现了主导的性能。3)此外,我们首次通过实验表明,在VLP训练方案中前所未有的整个单词掩码和图像增强进一步推动了下游的性能。
二、背景
2.1 视觉和语言模型的分类法
我们提出一种基于以下两点的视觉和语言模型的分类法:1)两个模态在专用参数和/或计算方面是否具有均匀的表达水平;2)两个模态是否在一个深度网络中交互。这些点的组合将得到图2中的四个原型。
视觉语义嵌入(VSE)模型如VSE++和SCAN属于图2a它们使用的嵌入器来处理图像和文本,前者重得多,然后用简单的点积或浅层注意力层表示两种模态的嵌入特征的相似性。
CLIP属于图2b,它为每个模态使用独立但昂贵的transformer嵌入器,池化的图像向量和文本向量之间的相互作用仍然很浅(点积)。尽管CLIP 在图像到文本检索任务具有显著的零样本表现,但我们无法在其他视觉和语言下游任务上观察到相同水平的表现。