Zero-shot Composed Text-Image Retrieval

最新推荐文章于 2025-03-07 14:11:31 发布

s_yangyang

最新推荐文章于 2025-03-07 14:11:31 发布

阅读量2.1k

点赞数 21

文章标签：人工智能

本文链接：https://blog.csdn.net/weixin_43460403/article/details/137337633

版权

本文探讨了组合图像检索(CIR)问题，提出了一种基于Transformer的模型TransAgg，利用大规模图像-文本数据自动构建训练集，有效融合多模态信息。实验结果显示，新方法在零样本场景下表现出色，与最先进的模型相比性能相当或更优。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

在本文中，我们考虑了组合图像检索 (CIR) 的问题，它旨在训练一个模型，该模型可以融合多模态信息，例如文本和图像，以准确检索与查询匹配的图像，扩展搜索能力。

最近的研究表明，视觉-语言模型在大规模数据集上联合训练取得了巨大进步，我们提出了组合图像检索（CIR）任务，旨在利用图像和文本信息来检索满足用户需求的目标图像，弥补了传统图像和文本检索的不足（手动构建文本-图像三元组数据集相比于收集文本-图像对通常非常昂贵，需要大量人力）。

贡献：

(i) 使用可扩展的流程，通过简单地利用大规模的图像-文本配对数据集（例如LAION-5B的一个子集），自动构建用于训练CIR模型的数据集。

(ii) 引入了一种基于Transformer的自适应聚合模型TransAgg，采用简单而高效的融合机制，能够自适应地将来自不同模态的信息结合起来。

(iii) 进行了大量的消融研究，以探究提出的数据构建流程的有效性，以及TransAgg中核心组件的有效性。

(iv) 在公开基准测试中，在零样本情景下评估模型性能（在自动构建的数据集上进行训练，然后直接在目标下游数据集上进行推理（如CIRR和FashionIQ）），我们提出的方法在性能上要么与现有的最先进模型相媲美，要么显著优于其。

标准的图像检索包括图像到图像检索和文本到图像检索。现有的图像检索研究主要分为两类：

一种是使用双塔结构，依赖于特征提取器获取文本或图像特征并使用余弦相似度进行检索；

另一种是通过多模态编码器计算图像-图像或文本-图像对的相似度。然而，这些模型无法有效利用不同模态的互补信息进行细粒度查询。

组合图像检索（CIR）考虑根据参考图像和相关说明检索图像问题。针对组合图像检索问题，现有研究主要关注通过融合多模态信息来生成最优的多模态表示，其中包括使用残差和门控模块、利用视觉-语言预训练Transformer以及采用CLIP模型和两阶段训练过程等方法。

在本节中，我们首先在第 3.1 节中制定组合图像检索的问题，然后在第 3.2 节中提供我们提出的架构的详细信息。在第 3.3 节中，我们描述了为 CIR 任务自动构建训练集的两个想法，即 Laion-CIRTemplate 和 Laion-CIR-LLM

在组合图像检索问题中，训练数据由三元组（Ir, It, t）组成，其中Ir是参考图像，It是目标图像，t是与参考图像相关的文本描述。目标是训练一个模型，该模型接受参考图像和文本描述作为输入，并生成一个能够检索目标图像的组合查询，该查询可以检索到一个目标图像 It。