图文跨模态检索研究综述

作者:张振兴,王亚雄

来源:《北京交通大学学报》

编辑:陈萍萍的公主@一点人工一点智能

原文:https://jdxb.bjtu.edu.cn/CN/10.11860/j.issn.1673-0291.20230126

摘要:图文跨模态检索作为跨模态计算研究的一个核心课题,一直受到学术界和工业界的高度重视。在过去的几十年里,随着深度学习技术的发展,特别是深度神经网络、Transformer架构以及图文对比学习等关键技术的广泛应用与革新,图文跨模态检索领域取得了显著的进展和突破。

本文在系统梳理图文跨模态检索的发展轨迹的基础上,重点关注其建模过程中的5个关键步骤,即训练数据准备、数据输入形式设计、图文特征抽取机制的选择、图文建模方法的选择以及优化目标的确立。为客观评估现有模型在跨模态检索任务上的性能水平,在多个权威的标注评测数据集上比较各类模型的表现,以揭示当前跨模态检索方法的实际效能边界。通过对各关键步骤发展历程的分析与总结,结合当前图文跨模态检索领域的研究成果,对未来跨模态学习的发展趋势做出预测与展望。

研究结果表明:尽管当前的图文跨模态检索技术已取得显著进步,但仍存在进一步提升的空间和潜力,研究者可从精细化检索、经济的预训练方法、新的图文交互方式、AIGC赋能的图文预训练4个方向进行改进。

7decfa5870c03ff4b8c0df359a2094f0.png

引言

图片和文本数据都包含丰富的信息,然而由于处于不同的空间,导致这两种模态的数据无法直接度量相似度并建立关联关系。图文跨模态检索任务正是为了学习度量图片和文本这两种异构数据之间的关联关系而被提出的。因此,图文跨模态学习的主要目的是学习图文的一种度量准则[1-4],基于该度量准则估计图片和文本之间的关联度大小,从而在多媒体数据中建立起相应的关联,为在海量的多媒体数据中构建相应的知识体系提供基础支撑。鉴于跨模态检索问题的重要性,该任务近年来一直受到广泛的关注,且不断有新的方法被提出。随着深度学习的兴起,基于双塔匹配网络的跨模态匹配模型[4-5]被提出并迅速成为主流结构。

双塔模型是一种两分支结构,一路分支进行图像建模,另一路分支被用于文本建模[1-2]。两路分支分别将图片与文本映射到同一个维度,即共享子空间,然后通过优化目标,如三元组损失进行参数优化。三元组损失通过将成对的图文特征拉近而将不匹配的图文对拉远的方式,对学习的过程施加约束[2-4]。VSE++[1]是基于图文全局相似度匹配的经典双塔模型,该模型利用VGG卷积网络[6]进行图片编码,利用序列模型GRU[7]进行文本编码,最后利用三元组损失函数进行图像编码网络与文本编码网络的训练。

基于图文全局相似度匹配的方法,重点在于更好地编码图片与文本特征以及更精确地进行相似性度量学习。例如,文献[1]提出一种困难样本挖掘策略,以更好地利用对特征学习更有价值的图文样本点。文献[5]提出的DPC模型同样基于全局相似度,该模型将图片及对应的文本描述当作一个类别,并利用用于分类的交叉熵损失进行网络的学习,在图文匹配方面也取得了很好的效果。

虽然基于全局相似度匹配的方法取得了重要进展,但是全局特征中包含了所有数据的全部信息,而在图文检索任务中,并不是所有的信息都是同等重要或是有必要的。例如,一般图片中背景信息重要性较低,而前景物体在匹配中具有更高的重要性;在句子中,介词、代词等对相似度的贡献较低,而名词、动词以及形容词等对相似度的贡献较高。

全局特征将所有信息都编码融合为同一个特征,并且同一维度的特征在相似度的计算中占有相同的比重,这是基于全局相似度匹配的方法无法取得匹配精度突破的重要原因。目标检测模型的快速发展,使基于目标物体区域级别的相似度匹配成为可能,尤其是FasterRCNN[8]、MaskRCNN[9]等目标检测模型在图文匹配任务上的优秀性能,促使研究者进行更细粒度的图文匹配模型的探索[3-4,10-11]。这类方法的重心在于精确地建模图片中的物体区域与句子中的单词或短语之间的对应关系,并通过该对应关系进行数据组件(图片区域、句子单词)级别的相似度估计,通过累积组件级别的相似度进行最终的相似度估计。

文献[3]提出的SCAN是细粒度对齐的一个代表模型,该模型首先利用FasterRCNN进行目标检测,并利用候选框框出物体区域,然后利用多层感知机进行区域特征的映射,最后利用文本分支的双向GRU[7]进行文本单词特征的编码。该工作还提出一种双向的文本单词与图像区域的注意力机制,这种策略通过估算图像区域与单词的相似度大小探求图像区域与单词的潜在对应关系,并将累积的局部相似度作为全局的相似度度量。文献[10]提出的Oscar模型进一步利用了目标检测的标签信息,能够进行更加细致的关联捕捉。

受益于目标检测模型,基于目标物体区域级别的相似度匹配模型在匹配精度上取得了突破。然而这类模型的缺点也较为明显:一方面,这类模型先检测再编码的流程复杂且难以进行端到端的训练;另一方面,由于检测到的区域有大有小,为进行统一编码,基于物体区域的映射一般都较为简单,使模型特征表达能力受限。这些缺点限制了图文匹配模型的性能。因此,基于目标检测的方法在较长时间内只有增量式的发展,直到两项新技术的出现打破了这一局面,一种是新的视觉编码结构即Transformer[12],另一种是预训练技术[10-11,13]。

Transformer是以自注意力机制为基本模块,搭建多头注意力机制,并通过堆叠多个多头注意力层组成的。在跨模态检索模型中,研究者将自注意力拓展为跨模态注意力,以方便地进行多模态信息的融合与关联关系挖掘。Transformer结构先被应用于自然语言处理领域,文献[14]提出的基于Transformer结构的预训练模型BERT在20多个下游任务中取得了优异的性能。基于Transformer的视觉结构,如ViT[15]、Swin-Transformer[16]等也相继被提出,并在重要的视觉任务中取得了显著效果。

Transformer技术很快被应用于图文匹配领域并获得了更优的性能,例如,ALBEF模型[17]利用Transformer架构分别编码文本和图片,无需目标检测且可以进行端对端的训练,其性能超过了基于全局相似度匹配的方法和目标物体区域级别的相似度匹配模型。预训练是一种两阶段的学习策略:第一阶段通过大量有噪声、弱对齐的互联网数据对模型进行初始训练以获得可靠的初始参数,第二阶段在具体的任务场景中进行参数微调以实现更好的性能。

图文预训练技术利用大规模多模态互联网数据极大地增强了图文匹配性能。Unicoder-VL模型[18]利用收集的380万网络图文数据进行预训练任务,并取得了较大的性能提升。CLIP模型[13]利用4亿图文对进行对比训练,并在包括图文匹配的多个跨模态任务上取得了优越的性能,进一步验证了基于有噪声的社交媒体数据进行预训练的有效性。之后的图文匹配工作大多遵循CLIP的学习范式,即通过结合对比学习与预训练框架进行匹配学习。

为帮助研究者深入了解图文跨模态检索的发展,本文系统回顾和总结了该领域的发展历程。首先基于图文跨模态检索领域的相关文献,对现有方法的策略和技术展开综述;然后通过对比现有模型在多个评测数据集上的性能揭示现有方法的性能上限;最后结合研究现状,对未来跨模态学习的发展方向和未来趋势进行了讨论。研究结果可为多模态检索领域的后续研究提供参考。

7bf126282f4b636ce6d1e2450585500b.png

训练数据集

以预训练技术的出现为时间节点,将图文跨模态检索领域的数据集分为两类,即标准数据集与预训练数据集。标准数据集在预训练技术出现之前被广泛采用,此类数据集经过人工标注与修正,目的在于建立公平、可靠的评测基准。而预训练数据集的目的在于支撑模型预训练,这类数据集通常由从互联网收集得到的数据组成,此类数据集并未经过人工修正,具有高噪声、弱关联、大数据量的特征。

1.1 标准数据集

Flickr30k[19]和MS COCO[19]数据集是图文检索领域广泛使用的2个标准数据集。Flickr30k是Flickr8k[20]的扩展版本,总计包含31 000张图片,均是从Flickr网站收集得到的,每张图片包含5条文本描述,总计有155 000条文本描述,该数据集的主要场景是日常的活动和事件。数据集中分别有1 000张图片用于测试和验证,其他的用于网络训练。

MS COCO数据集由微软公司提出,总计包含123 287张图片,场景更加多样,每张图片也包含5条文本标注。其中测试集有5 000张图片,从测试集的5 000张图片中选择1 000张图片构成5折1k测试集,原测试集称为5k测试集。Flickr30k与MS COCO数据集已经成为用于图文检索模型性能比较的标准数据集,相较于Flickr30k,MS COCO数据集是一个更具有挑战性的数据集。

1.2 预训练数据集

为避免进行大规模的人工修正或标注,研究者倾向于爬取互联网中的多媒体数据进行跨模态预训练,诸多基于有噪声的互联网数据训练的模型取得了较好的效果。例如,文献[13]收集了4亿条有噪声的图文对,成功训练了多模态基础模型CLIP。常用的预训练数据集如表1所示,在原文中未指定名称的数据集在表1中使用模型的名称表示。由表1可知,相比于人工标注的标准数据集,预训练数据集的数据量更大。

预训练数据的来源可以大致分为2种:

①从网络爬取。网络中有大量的多媒体数据,例如新闻、评论、个人分享等,这些数据无需进行人工标注和审核,可以被大量爬取并用于训练,是预训练数据集的主要来源。CoCa[21]、CLIP[13]、Flamingo[22]等数据集便是由从网络爬取的数据组成的。

②整合现有图文数据集。为得到更可靠的数据,一些方法如ViLT[23]、ALBEF通过整合图文检索、图像问答、视觉定位甚至视频等多模态数据得到预训练资源。

表1 预训练数据集

953eaef3c8a64d25d863b51d9723e802.png

21ef04020c5ba4056057016efb0d9d6f.png

图文跨模态匹配模型

图1为图文检索任务建模流程中的主要步骤以及所采取的策略与机制分类,主要步骤包括获取训练数据、数据输入、特征提取、图文对齐以及损失函数计算。其中数据的输入形式取决于所使用的编码网络。图文跨模态匹配模型可根据对齐层级的不同分为3种,即基于全局层级相似度的图文匹配、基于目标区域层级相似度的图文匹配以及基于区域块层级相似度的图文匹配,不同的对齐方法在每个步骤选择的策略或机制不同。

739b1e6a95e1f293795b6e1eb2624b2e.png

图1 图文检索任务建模流程中的主要步骤以及所采取的策略与机制分类

2.1 基于全局层级的图文匹配

基于全局层级相似度的图文匹配是一种相对简单的学习范式,使用图像编码器与文本编码器分别对图像和文本进行特征提取,并基于相应的损失函数进行参数寻优。具体地,令I和T分别表示图片和文本,对应的图像特征FI和文本特征FT分别由图像编码器 Vis与文本编码器 Text提取,即为

811664113b78fd716bb958d30fa4e1f0.png

式中,θv和θt分别表示文本与图像编码器的参数。

基于全局相似度的图文检索工作中,图像编码器通常为经典卷积神经网络,如VGG、ResNet[42]等;文本编码器常使用序列编码模型,如LSTM[43]、GRU等。VSE++模型利用VGGNet和GRU分别进行图像和文本特征编码,DPC网络使用ResNet50和TextCNN分别进行图像和文本特征的编码。

三元组损失是此类方法进行网络参数学习的常用损失函数,给定一个训练批次 B,三元组损失的优化目标为

c34c06c2ebdd8e44d83217ecdc0e29c9.png

式中:s(∙,∙)为相似度计算函数,通常为余弦相似度;I'/ T'表示同一批次中与T/I不配对的图片/文本;[]+表示取正函数;β为阈值,用于界定相似度之差是否被优化。

基于全局层级相似度的学习范式的研究重心可以分为两方面:①设计更好的图文交互机制以进行更准确的特征学习[44-45]。例如,sm-LSTM模型[44]从卷积网络的特征图中相应提取物体的显著区域作为物体的表征,利用LSTM对文本进行编码得到单词的特征,通过一个成对的交叉注意力机制挖掘物体区域与单词的相似度,整合所有的相似度并将其作为最终的全局相似度。②优化损失约束以从样本中挖掘更有用的信息[1,5]。例如,文献[1]认为选择三元组损失中的负例是一个关键问题,并提出一种困难样本挖掘策略,即在训练中给定一个文本,在与该文本不成对的图像集合中,挑选相似度最高的图片作为困难样本(最有价值样本),图像的困难文本的选择过程类似,最后将选择的困难样本送入三元组损失进行损失计算与优化。VSE++以及其后的诸多工作验证了这是一种非常有效的策略。

2.2 基于区域层级的图文匹配

基于目标区域层级的图文匹配方法流程为:

①利用目标检测模型,如FasterRCNN[8],检测图片中的物体区域,并将句子拆解为单词。

②利用图文注意力机制计算每一个物体区域与各个单词的相似度。

例如,图2为SCAN[3]中的图片区域与单词的对齐关系学习,在图2中,与第一个区域的相似度最大的单词为“猫”(置亮,其他单词置暗),以该相似度为权重对单词特征进行加权,得到物体区域的语义表示33ff5a25638e434f348ef1dca9e6eefd.png,利用目标区域ri与语义表示36c0758bcf017ad77673fbc7e43778a2.png计算得到区域相似度 s(ri1dcc8d9c1f2caaeb56bbc9d3210995e2.png)。③遍历所有的区域进行相同的操作,并对各个区域计算的相似度进行平均,即池化操作得到最终的图文相似度 s(I,T)。

0be830b0ff7bcd388856e20d1c6cfecc.png

图2 SCAN中的图片区域与单词的对齐关系学习

假设图片 I={r1,r2,…,rn},ri表示检测到的图片中的物体区域,i=1,2,…,n,句子T={w1,w2,…,wm}, wj表示句子中的单词,j=1,2,…,m。区域层级的注意力通常是一种双向注意力机制,即区域到单词和单词到区域的注意力。以区域到单词的注意力为例,对于区域ri,首先计算其与每个单词的相似度,图片中第 i个区域与句子中第 j个单词的相似度为

7bb9e6b5affca5d542fe17c8345838ca.png

式中, e为辅助索引,用于遍历所有单词。

然后,对单词特征加权,得到物体区域的语义表示,计算式为

53f26210fe2b0fb6c029d429e08a9c60.png

最后,通过累计区域的相似度得到图文的相似度,计算式为

f1c57e99747d9e3904bc43de57a7dc29.png

单词到区域的注意力可根据式(4)~式(6)类似地进行计算,最终的图文相似度可以通过取两者的平均得到,通过替换式(3)中的相似度,计算损失从而进行网络优化。

基于区域层级相似度的方法可以分为3类。

1)优化关联度计算方法以进行更加准确的区域层级的关联建模[4,46-48]。文献[4]提出的PFAN模型在式(4)的基础上进一步考虑了区域的位置信息,具体流程为:首先,将图像划分为多个区域,并为每个区域学习一个位置嵌入;然后,设计一种位置注意力机制建模位置嵌入与区域的关联,为物体的每个区域输出一个位置特征,并将该位置特征与区域的图像特征拼接作为区域的完整特征;最后,遵循图文三元组学习范式进行网络学习。

文献[48]为提出的IMRAM模型设计了一种迭代式的关联捕捉方法,具体流程为:首先,分别使用图像与文本编码器对图文输入进行编码;然后,将两种跨模态的表征输入所提出的细粒度关联捕捉模块,该模块通过记忆蒸馏单元对图片、文本以及图文交叉进行渐进式细粒度的跨模态对齐;最后,通过迭代式的关联建模,输出图文特征。

2)更精细的区域-单词关联捕捉结构设计[49-51]。VSRN模型[50]引入了图卷积网络以进行自适应的区域-文本关联度捕捉,具体流程为:首先,提取图片区域特征,并基于相似度近邻关系进行区域关联图构造;然后,利用图卷积网络进行信息扩散,将输出的区域特征输入GRU进行特征编码;最后,对图片中的物体区域进行完备的关联建模并输出其综合特征。

受VSE++的困难样本挖掘策略的启发,文献[51]提出了困难物体区域选择策略以挑选更有价值的目标区域,即基于物体区域与句子中单词或者短语的相关性大小进行困难样本的筛选,然后基于这些困难样本学习单词与图像区域的偏序关系。

3)引入更多信息进行关联建模[10,52]。Oscar模型[10]引入了检测到的物体区域的标签信息,并将其作为文本补充信息与物体的区域特征进行对比训练。通过引入区域的标签信息,Oscar有效地提升了跨模态检索的精度。

2.3 基于区域块层级的图文匹配

受Transformer在自然语言处理领域应用的启发,计算机视觉领域的研究者设计了视觉Transformer[15]结构,并迅速将其应用于跨模态检索任务。图3展示了一种经典的基于图像区域块层级匹配的ALBEF网络模型[17],在该模型中,图像被划分为区域块,即视觉token后,输入视觉Transformer进行特征编码;同时文本token输入文本Transformer[14]进行编码。与基于全局和区域层级方法的显著区别在于,此类图文匹配模型在训练阶段引入了额外的图文融合模块,如图3中的多模态编码器,该模块的引入能够支持新的损失约束。

49a8f84d49a2249855ea46579c784222.png

图3 ALBEF网络结构图

基于区域块层级的图文匹配方法将图片分割为视觉token集合,即 I={b1,b2,…,bf} ,其中179852f36444b36a5966f4beb96c1120.png为划分的图像块, 为图像块的尺寸p为图像块的尺寸,z=1,2,…,f; 句子被分割为文本集合即句子被分割为文本token集合,即T= { t1,t2,…,tm其中 ti为文本中的一个分词单元。图片和文本完成分割后被向量化,然后被输入编码网络进行编码,图片和文本的编码网络结构类似,均基于自注意力机制。除图像块外,基于Transformer引入一个特殊的类别token,即bv,用于捕获整个图像的综合特征。将所有的视觉token进行堆叠,得到 b=cat(bv,b1, b2,…,bf),其中cat表示拼接操作。通过3次特征映射对堆叠后的特征进行自注意力编码,计算式为

68d973f76e60a1ff8c89f5d87b4c1f5b.png

式中:Q=bWQ , K=bWK,V=bWV ,WQ、WKd499dbbc59f6c62ebab6ea4940843a0e.png分别为映射权重;d为注意力头的维度。

堆叠多层Transformer循环进行特征编码,每一层可并行地利用式(7)进行编码。取最后一层输出的类别token对应的特征作为图像的最终表示,记为v;文本特征的编码过程与图像类似,最终可以得到文本特征bafcc9a9f603d61c57e307e15b14f90e.png

基于Transformer的模型一般通过计算对比损失进行训练。不同于以往工作中广泛使用的排序损失,对比损失是一种分类损失,即将配对样本当作正样本,而将不配对样本当作负样本进行特征学习,对比损失的计算式为

f8bb7bb7049b1136d1efc0041a863500.png

式中:τ为超参数;s'为不配对的负样本集合;02ca3a84acb7f7b987e740604b32fa1b.png为负样本。

基于区域块层级的图文匹配模型结构大致可以分为两种,即单流结构和双流结构。针对图片和文本进行token化后都可使用Transformer进行编码的特点,使用同一个Transformer对文本和图片进行编码[10,18,36,53-55]。例如,Unicoder-VL模型[18]将图片和文本分别token化后,输入一个Transformer编码网络。单流结构的优势是图像和文本能够在同一个网络中学习并进行参数更新,无需经过跨模态融合阶段。双流结构遵循经典的双塔结构,即图片和文本分别使用各自的编码器进行编码[13,17,34,37,56-57]。双流结构认为文本和图片存在较大的语义鸿沟,只有分别使用各自的编码器进行编码,才可以得到可靠的特征表示。双流结构一般需要引入跨模态交互层以更好地进行异构模态数据之间的关联捕捉。例如,在ALBEF的结构中,文本和图像首先通过各自的编码器得到特征,然后输入交叉注意力层进行多次的信息融合,最后通过图文匹配的预测与遮挡的语言建模(Masking Language Modeling,MLM)方法进行网络训练。

52b15b7013e1856174980d8b1c0787af.png

图文预训练任务

预训练模型BERT[14]在自然语言处理领域取得优秀性能后,研究者也开始进行跨模态领域预训练任务的探索。然而,自然语言处理的预训练方法无法直接迁移到跨模态检索领域,因此,许多适用于跨模态领域的预训练方法被提出,主要可分为图文对比学习(Image-Text Contrastive Learning,ITC)、图文匹配学习(Image-Text Matching,ITM)和跨模态遮挡的语言建模。

3.1 图文对比学习

CLIP模型[13]是图文对比学习的经典工作,这类方法的主要目的在于进行图片与文本编码空间的学习[17,58-59]。给定一个图文对(I,T),分别通过视觉编码器 Vis与文本编码器 Text,得到对应的图像与文本表征FI、FT,在采样的一个批次B中,将与(I,T)配对的图文对作为正例,不配对的图文作为负例,则网络训练需施加的约束为

91f60f51a7d7ccd27f903ef09e1cea06.png

图文对比学习通常作为主要的损失约束,广泛应用于图文预训练任务中[11,13,17,60-61]。例如,CLIP模型利用4亿条有噪声的图文对进行对比学习,相较于直接在标准数据集上进行学习,在MS COCO数据集上的召回率提升了10%以上。ALBEF使用ITC损失,可以带来近3%的召回率提升。对比学习对训练的批次大小较为敏感,批次越大,效果越好。然而有限的显存可能无法支撑足够大的批次,因此许多方法设计了各种机制以扩充对比学习的样本数量。例如,ALBEF模型使用了动量编码器机制,即维护一个动量更新的模型以提供更多对比样本,同时维护图文样本队列为对比学习提供充足的负例。WenLan模型[35]利用MoCo[62]的队列策略以存储更多的样本。

3.2 图文匹配学习

图文匹配学习的训练目标是判断一组图片和文本是否匹配[17,60],该类方法是一个二分类的过程。图片和文本先通过跨模态融合模块融合为一个跨模态特征,随后这一特征通过一个分类头映射为匹配概率,其中配对的图文对被视为正样本,不配对的被视为负样本。具体地,假设图像与文本表征分别用FI、FT表示,这两个特征被送入融合模块,当前的融合模块广泛采用的策略是跨模态注意力机制。根据式(7)计算跨模态融合特征h,其中Q、K和V分别为注意力机制的查询、键和值,查询键Q=FC(FT;θ1),键K=FC(FI;θ2),V=FC(FI;θ3),FC是全连接层,θ1、θ2、θ3是全连接层的参数。该跨模态注意力层堆叠多次,取最后一层的类别token的嵌入表示 hcls作为图文的联合表征,将其送入一个分类头 C(一般为多个线性层)并计算损失函数,计算式为

873be0d1c4347e81ea20ed7fa2021116.png

式中:y表示图文对是否匹配,值为1时表示匹配,为0时表示不匹配;C(∙;φ)表示概率预测网络,φ为概率预测网络的参数。

综上,该类预训练任务是在较粗的粒度上对图文对施加约束,其核心是融合图片和文本特征,并输出匹配的概率预测。图文匹配学习通常被作为辅助约束进行模型学习[17,60-61,63]。例如,ALBEF模型利用交叉注意力与自注意力机制对图片和文本特征进行融合,通过一个带参数的分类头输出匹配概率。ViLBERT模型直接将图片和文本特征的内积作为匹配概率。Uniter模型[63]将单词特征与物体特征进行拼接,并通过跨模态融合网络输出特征,类似于ALBEF,Uniter也引入了一个分类头进行概率预测。

3.3 跨模态遮挡的语言建模

跨模态遮挡的语言建模与自然语言处理中的遮挡的语言模型类似,都是通过“完形填空”式的预测任务对参数进行更新,即遮挡部分单词,然后通过保留的信息对遮挡的单词进行预测。令T\w表示句子T中的单词 w被遮挡,这里遮挡的具体操作是将单词 w以一定概率替换为一个特殊的占位符[MASK]。给定一个句子 T={w1,w2,…,wm},首先将其中的单词以一定的概率进行遮挡,得到新的句子 T'={w1,[MASK],…,[MASK],wm},然后将新句子和图像分别通过各自的编码器,并将所得到的图文特征送入图文融合模块得到第u个[Mask]的位置对应的特征表示Fmasku,最后通过分类器Pθ预测遮挡的词在词表中的位置,并计算相应的约束约束用于衡量预测的准确性,计算式为

787c7dfe7e144265fdc1189110e39ce3.png

式中,N表示被遮挡的词的个数。

跨模态遮挡的语言建模通过融合图文多模态数据进行缺失文本信息的预测,可以很好地捕捉单词与图片之间的关联关系,该技术被许多工作证明是一项非常高效的图文预训练技术[17,23,60,64]。大多数预训练模型只需要进行最简单的单词遮挡,即可实现性能提升[17,23,60]。例如,Uniter模型通过引入MLM机制将平均召回率提升了近3%,APTM模型[60]利用MLM将检索的召回率提升了2%以上。

6cb5d902a0f5ca9322c588230a9e683b.png

评测指标与性能比较

4.1 评测指标

图文检索广泛使用召回率进行性能评测,召回率为检索到的数据(图片或者文本)在整个检索数据集中所占的比例。假设经过排序后的列表长度为G,总计有M个测试样本,则图文检索的召回率为

c88e6ee1d971811ab7ed0e96ecbd0ca7.png

式中,A(G)表示在排序前G的排序样本中正确配对的样本数量。Recall@1、Recall@5和Recall@10被广泛用于性能评测,分别记为R@1、R@5、R@10。

4.2 性能比较

表2至表5展示了现有模型在不同数据集上的性能比较结果。其中,表2至表4分别为全局对齐和区域对齐模型在Flickr30k以及MS COCO(5折1k和5k测试集)上的性能比较结果;块对齐模型一般采用Transformer结构,且经常使用额外预训练数据进行训练,故在表5中对该类模型进行单独比较。

表2 现有模型在Flickr30k数据集上的性能比较结果 (%)

9fcd5ecde52f1ed36514e3f572e9e220.png

表3 现有模型在MS COCO数据集(5折1k测试集)上的性能对比结果 (%)

8649ae9ca1fd7a8d07f0fdf1982142f1.png

表4 现有模型在MS COCO数据集(5k测试集)上的性能对比结果 (%)

59a489bb31ccc9ab18a548cc650847cb.png

表5 预训练模型在Flickr30k和MS COCO数据集上的性能比较结果 (%)

111a356b44b5d72e36e326a8f3119a62.png

由表2至表4可知:

①基于区域对齐的模型由于探究了更加细粒度的图文相似度,可以获得更加精细的关联建模,性能优于相对粗糙的基于全局对齐的模型。例如,在Flickr30k数据集上,SCAN的Recall@1相较于DPC,在文本检索实验中提升了11.8%,在图像检索实验中提升了7.5%,说明基于区域层级的对齐机制确实可以捕捉更可靠的图文关联。

②后来提出的基于区域层级对齐的模型,如PFAN、VSRN相较于之前模型的性能更优越。在MS COCO数据集的5折1k测试集上进行文本检索实验,PFAN的Recall@1超过SCAN近4%;在图像检索实验中,PFAN的Recall@1也比SCAN高2.2%。

由表5可知:

①基于块对齐的预训练模型在海量额外数据以及Transformer结构的加持下取得了性能的大幅提升。例如在文本检索实验中,列出的所有模型的Recall@5均已超过95%。

②模型在Flickr30k数据集上的性能已经接近最优,例如X2VLM模型在文本检索实验中的Recall@1可以达到98.8%,Recall@5已经达到了100%。

③在MS COCO数据集上,由于数据的多样性,模型的训练更具有挑战性,所以即使是利用大规模数据训练的模型,距离最优性能仍较远,尤其是在图像检索实验中。例如,最新的X2VLM模型在图像检索实验中的Recall@1只有67.7%,多模态模型BEiTV3模型在图像检索实验中的Recall@1也只达到了67.2%,说明图文跨模态检索任务仍面临诸多挑战。

066df05882475827b357da031acba3be.png

研究展望

本文梳理了跨模态检索的主要发展脉络,基于主要建模范式,从数据、模型、对齐方法等方面回顾了现有方法的核心策略。图文预训练技术的提出以及Transformer架构的广泛应用,显著推动了跨模态检索领域的进步,然而该领域仍面临诸多挑战。本文从4个方向对图文检索的未来研究进行展望。

1)精细化检索。虽然现有图文检索模型在性能和技术上取得了显著进步,但是检索方式仍较为粗粒度。例如,在广泛使用的标准数据集Flickr30k和MS COCO中,语义宽泛的名词普遍存在于文本描述中,导致训练的模型无法支持更加精细化的检索。为实现细粒度的检索,可以开展两方面研究:①通过将图文与更多知识库进行结合,细化数据语义,并基于细化语义的数据进行图文检索模型的训练以实现更加精细的图文检索。②研究组合形式的跨模态检索。检索不是只基于某一种模态的数据,而是基于两种模态数据的组合,例如,图片提供上下文信息,文本提供细节描述,通过两种信息的互补进行目标更明确的、更加精细的学习与检索。

2)经济的预训练方法。虽然跨模态预训练将图文检索的性能提升到新的高度,但是海量数据同时带来了训练时长的大幅增长以及对算力资源的更高要求,巨大的资源耗费导致普通研究者无法进行此类方法的尝试。因此,如何让预训练以一种更经济的方法进行是值得研究的问题。为解决该问题,可以从3个方面考虑:①从工程角度增加训练的并行化,配套可并行程度高的算法以加速训练;②对模型体量进行压缩设计,减少训练过程中的计算复杂度;③对模型数据进行蒸馏,由于收集到的预训练数据质量参差不齐,挑选质量高的样本进行数据训练,可以减少训练成本。

3)新一代图文交互方式。预训练的数据从百万增长到千万、亿甚至数十亿的规模,模型的参数也增长到数十亿。然而,图文检索的性能并没有随着预训练数据量和模型规模的大幅增长而有明显的提升。这个现象引起的思考是:当下广泛使用的自注意力与跨模态交叉注意力的交互方式是否已经到达了瓶颈。因此,将图文检索的性能推进到下一个阶段的一个重要研究方向是新的图文交互方式的设计。

4)AIGC赋能的图文预训练。AIGC已经成为当下热门的研究方向,并且赋能了诸多任务。基于扩散模型[83]的视觉生成模型如Stable Diffusion[84]可以生成高质量的图像,跨模态语言模型如BLIPv2[81]可以进行文本生成。这些生成模型能够创建高质量的图文对,而不需要研究者去自主收集。此外,由于Stable Diffusion[84]与BLIP[80-81]的优秀性能,利用这些模型所创建的图文对可能比收集到的网络数据语义一致性更好、噪声更低,特别是对于敏感的图片数据,利用AIGC技术可以很好地规避隐私问题。因此,如何利用AIGC赋能图文预训练是值得探究的方向。

6efa22cf0e18dc66dc94bf1575883e2f.png

结论

1)在Flickr30k和MS COCO数据集上的文本检索实验和图像检索实验中,基于区域层级匹配的模型效果普遍优于基于全局匹配的模型。例如在Flickr30k数据集上,SCAN的Recall@1相较于DPC,在文本检索实验中提升了11.8%,在图像检索实验中提升了7.5%,说明基于区域层级对齐的模型能够在建模过程中捕获更可靠的图文关联,并得到优秀的效果。

2)图文预训练技术显著提升了检索性能。在Flicker30k数据集上,大部分预训练模型在图像检索实验的Recall@5均超过了90%,显著优于普通方法的图像检索效果,验证了基于大规模数据的预训练方法的有效性和重要性。

3)在MS COCO数据集的图像检索实验中,X2VLM模型的Recall@1达到67.7%,尽管较现有模型有所提升,但距离最优性能仍有差距,说明图文跨模态检索任务在处理复杂场景时具有挑战性。

跨模态检索技术已经取得了显著进步,但仍然存在进一步提升的空间和潜力。未来的研究应致力于解决现有方法在复杂场景和大规模数据处理中的不足,以实现更高效、更精确的图文跨模态检索。


备注:昵称-学校/公司-方向/会议(eg.ACL),进入技术/投稿群

7d812578aa01a66235b24b6bf1aff514.png

id:DLNLPer,记得备注呦

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值