一、摘要
在本文中,我们考虑了组合图像检索 (CIR) 的问题,它旨在训练一个模型,该模型可以融合多模态信息,例如文本和图像,以准确检索与查询匹配的图像,扩展搜索能力。
二、介绍
最近的研究表明,视觉-语言模型在大规模数据集上联合训练取得了巨大进步,我们提出了组合图像检索(CIR)任务,旨在利用图像和文本信息来检索满足用户需求的目标图像,弥补了传统图像和文本检索的不足(手动构建文本-图像三元组数据集相比于收集文本-图像对通常非常昂贵,需要大量人力)。
贡献:
(i) 使用可扩展的流程,通过简单地利用大规模的图像-文本配对数据集(例如LAION-5B的一个子集),自动构建用于训练CIR模型的数据集。
(ii) 引入了一种基于Transformer的自适应聚合模型TransAgg,采用简单而高效的融合机制,能够自适应地将来自不同模态的信息结合起来。
(iii) 进行了大量的消融研究,以探究提出的数据构建流程的有效性,以及TransAgg中核心组件的有效性。
(iv) 在公开基准测试中,在零样本情景下评估模型性能(在自动构建的数据集上进行训练,然后直接在目标下游数据集上进行推理(如CIRR和FashionIQ)),我们提出的方法在性能上要么与现有的最先进模型相媲美,要么显著优于其。
三、相关工作
1. 图像检索
标准的图像检索包括图像到图像检索和文本到图像检索。现有的图像检索研究主要分为两类:
一种是使用双塔结构,依赖于特征提取器获取文本或图像特征并使用余弦相似度进行检索;
另一种是通过多模态编码器计算图像-图像或文本-图像对的相似度。然而,这些模型无法有效利用不同模态的互补信息进行细粒度查询。
2. 组合图像检索
组合图像检索(CIR)考虑根据参考图像和相关说明检索图像问题。针对组合图像检索问题,现有研究主要关注通过融合多模态信息来生成最优的多模态表示,其中包括使用残差和门控模块、利用视觉-语言预训练Transformer以及采用CLIP模型和两阶段训练过程等方法。
四、方法
在本节中,我们首先在第 3.1 节中制定组合图像检索的问题,然后在第 3.2 节中提供我们提出的架构的详细信息。 在第 3.3 节中,我们描述了为 CIR 任务自动构建训练集的两个想法,即 Laion-CIRTemplate 和 Laion-CIR-LLM
4.1 总体框架
在组合图像检索问题中,训练数据由三元组(Ir, It, t)组成,其中Ir是参考图像,It是目标图像,t是与参考图像相关的文本描述。目标是训练一个模型,该模型接受参考图像和文本描述作为输入,并生成一个能够检索目标图像的组合查询,该查询可以检索到一个目标图像 It。