Zero-shot Composed Text-Image Retrieval

本文探讨了组合图像检索(CIR)问题,提出了一种基于Transformer的模型TransAgg,利用大规模图像-文本数据自动构建训练集,有效融合多模态信息。实验结果显示,新方法在零样本场景下表现出色,与最先进的模型相比性能相当或更优。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

一、摘要

        在本文中,我们考虑了组合图像检索 (CIR) 的问题,它旨在训练一个模型,该模型可以融合多模态信息,例如文本和图像,以准确检索与查询匹配的图像,扩展搜索能力。

二、介绍

        最近的研究表明,视觉-语言模型在大规模数据集上联合训练取得了巨大进步,我们提出了组合图像检索(CIR)任务,旨在利用图像和文本信息来检索满足用户需求的目标图像,弥补了传统图像和文本检索的不足(手动构建文本-图像三元组数据集相比于收集文本-图像对通常非常昂贵,需要大量人力)。

贡献:

        (i) 使用可扩展的流程,通过简单地利用大规模的图像-文本配对数据集(例如LAION-5B的一个子集),自动构建用于训练CIR模型的数据集。

        (ii) 引入了一种基于Transformer的自适应聚合模型TransAgg,采用简单而高效的融合机制,能够自适应地将来自不同模态的信息结合起来。

        (iii) 进行了大量的消融研究,以探究提出的数据构建流程的有效性,以及TransAgg中核心组件的有效性。

        (iv) 在公开基准测试中,在零样本情景下评估模型性能(在自动构建的数据集上进行训练,然后直接在目标下游数据集上进行推理(如CIRR和FashionIQ)),我们提出的方法在性能上要么与现有的最先进模型相媲美,要么显著优于其。 

三、相关工作

1. 图像检索

        标准的图像检索包括图像到图像检索和文本到图像检索。现有的图像检索研究主要分为两类:

        一种是使用双塔结构,依赖于特征提取器获取文本或图像特征并使用余弦相似度进行检索

        另一种是通过多模态编码器计算图像-图像或文本-图像对的相似度。然而,这些模型无法有效利用不同模态的互补信息进行细粒度查询。

2. 组合图像检索

        组合图像检索(CIR)考虑根据参考图像和相关说明检索图像问题。针对组合图像检索问题,现有研究主要关注通过融合多模态信息来生成最优的多模态表示,其中包括使用残差和门控模块、利用视觉-语言预训练Transformer以及采用CLIP模型和两阶段训练过程等方法。

四、方法

        在本节中,我们首先在第 3.1 节中制定组合图像检索的问题,然后在第 3.2 节中提供我们提出的架构的详细信息。 在第 3.3 节中,我们描述了为 CIR 任务自动构建训练集的两个想法,即 Laion-CIRTemplate 和 Laion-CIR-LLM

4.1 总体框架

        在组合图像检索问题中,训练数据由三元组(Ir, It, t)组成,其中Ir是参考图像,It是目标图像,t是与参考图像相关的文本描述。目标是训练一个模型,该模型接受参考图像和文本描述作为输入,并生成一个能够检索目标图像的组合查询,该查询可以检索到一个目标图像 It​。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值