摘要
我们研究了卷积神经网络(CNN)和视觉语言预训练transformer(VLPT)的联合学习,旨在从数百万个图像-文本对中学习跨模态对齐。最先进的方法提取突出的图像区域,并逐步对齐区域与单词。由于基于区域的视觉特征通常代表图像的一部分,因此现有的视觉语言模型要完全理解成对的自然语言的语义是一项挑战。本文,我们提出SOHO,将整个图像作为输入,并以端到端的方式学习视觉语言表示。SOHO不需要边界框注释,使得推理速度比基于区域的方法快10倍。特别地,SOHO学习通过视觉字典(VD)来提取全面而紧凑的图像特征,从而促进跨模态理解。VD被设计为表示相似语义的一致的视觉摘要。它是动态更新,并在我们预训练任务中利用掩码视觉建模(MVM)。
一、介绍
随着transformer和自监督学习的成功,视觉语言预训练(VLPT)模型通过大规模的易于访问的图像-文本对来学习更好的跨模态表示。视觉表示在VLPT模型中起着重要的作用。VLP模型最近的成功伴随着基于区域的图像特征的使用,这些图像特征是由在VG数据集上预先训练好的对象检测器提取的。然而,直接利用基于区域的图像特征来理解视觉语言存在三个挑战:首先,区域关注边界框内的对象,忽略了边界框外的上下文信息,这对于关系的理解和推理非常重要。如图1.其次,对图像的视觉理解将局限于预先定义的区域类别。第三,大多数基于区域的图像特征都是通过检测模型提取的,会出现低质量、有噪声、过采样,并依赖于大规模的框注释数据。虽然一些工作试图在弱监督下训练检测模型,但性能远低于要求。最近一些工作尝试基于网格的卷积特征对视觉表示也很有效。这些模型是为特定的视觉-语言任务或视觉任务而设计的。本文,我们以VLPT为重点,并提出了第一个不依赖于区域特征的端到端VLP模型。
为克服基于区域的图像特征的局限性,更好地利用图像-文本对进行跨模态理解,我们提出了SOHO,一种端到端的视觉语言预训练框架,直接从图像-文本对中学习图像嵌入、语言嵌入和语义对齐。与现有的VLPT工作相比,SOHO采用了一种