摘要
视觉-语言推理不仅需要视觉概念、语言语义的理解,更需要这两个模态的对齐和关系。因此,我们提出LXMERT(从Transformers中学习跨模态编码器表示)框架来学习视觉和语言的连接。在LXMERT中,我们构建了一个大规模的Transformer模型包含三个编码器:一个对象关系编码器、一个语言编码器和一个跨模态编码器。接下来,为了赋予我们模型连接视觉和语言语义的能力,我们通过五种不同的预训练任务(掩码语言建模、掩码对象预测(特征回归和标签分类)、跨模态匹配和图像问答),用大量图像和句子对进行预训练。这些任务有助于学习模态内和跨模态关系。在对预训练好的参数进行微调后,我们的模型在两个数据集上(如VQA和GQA)取得最先进的结果。还展示了我们预训练跨模态模型的通用性,将其适应一个视觉推理任务NLVR,并提高了性能。
一、介绍
我们新的跨模态模型关注学习视觉和语言交互,尤其是一个图像和它的描述性句子的表示。为更好学习跨模态对齐,我们用五个任务预训练我们的模型,这种多模态预训练允许我们的模型从同一模态的可见元素或从其他模态的对齐的组件中推断出掩蔽特征。这有助于建立模态内部和跨模态间的关系。
二、模型结构
2.1 输入嵌入
LXMERT输入嵌入层将输入转化为两个特征序列:词级句子嵌入和对象级图像嵌入。
(1)词级句子嵌入:通过WordPiece tokenizer将句子分为词,然后通过嵌入层将单词和索引投影到向量上,然后添加到具有索引感知的词嵌入中:
(2)对象级图像嵌入:对象检测器检测m个对象,每个对象通过位置特征(边界框坐标)pj和2048维RoI特征表示fj,我们通过添加两个全连接层的输出来学习一个具有位置感知的嵌入: