Reason-before-Retrieve(CVPR 2025)

研究方向:Image Captioning

论文全名:《Reason-before-Retrieve: One-Stage Reflective Chain-of-Thoughts for Training-Free Zero-Shot Composed Image Retrieval

1. 论文介绍

组合图像检索(CIR)旨在检索与参考图像密切相似的目标图像,同时整合用户指定的文本修改,从而更准确地捕捉用户意图。

本文提出了一种新颖的无训练的单阶段方法,用于零样本组合图像检索(ZS-CIR)的单阶段反思思维链推理(OSrCIR),该方法采用多模态大型语言模型来保留必要的视觉信息在单阶段推理过程中进行改进,消除了两阶段方法中的信息丢失。我们的反思思维链框架通过将操纵意图与参考图像的上下文线索对齐来进一步提高解释准确性。

2. 方法介绍

给定一个参考图像I_r 和一个操作文本 T_m,ZS-CIR从图像数据库 D中检索出与I_r在视觉上相似的图像,同时结合T_m中指定的修改。

我们将目标图像描述T_t作为基于多模态大型语言模型(MLLM)\phi M的组合查询进行推理,为了确保 \phi M以人类可理解的方式推理 T_t,我们引入了一个反思思维链提示p_c​。然后使用获得的目标图像描述T_t通过CLIP进行图像检索,并使用预训练文本编码器\phi T将目标图像描述T_t和候选图像I_c嵌入到一个共享的、可搜索的空间中。用余弦相似度计算 cos(\phi_I(I_c),\phi_T(T_t))匹配分数。

2.1 单阶段推理过程

给定一个多语言语言模型 \phi M​,我们按如下方式生成包含用户对参考图像I_r的操作意图T_m的目标图像描述T_t

T_t = \phi_M(p_c\circ I_r\circ T_m)

2.2 反思思维链用于ZS-CIR

反思CoT提示指导以下逐步推理步骤:

原始图像描述:原始图像描述步骤突出显示参考图像中与用户意图相关的视觉细节。

思考:思维步骤捕捉用户的意图和对可能被操纵的视觉元素的推理。

反思:进一步评估这些元素以识别那些最符合用户意图的内容。

目标图像描述:基于与目标检索最相关的视觉修改生成精炼的描述。

语境中的语言引导视觉学习:单纯为反思性CoT过程提供指导对于大型语言模型理解每一步骤所需的CoT过程是不足够的。我们利用在语境中学习的方法,该方法通过提供一些预期的大型语言模型输出的文本示例,而不需要参考图像,来指导大型语言模型在每个步骤中的推理过程。

组合图像检索:给定目标图像描述 T_t,我们的模型使用一个冻结的预训练CLIP对图像搜索数据库 D 和T_t进行编码。重新检索到的目标图像I_t确定如下:

I_t = \arg\max_{I_r \in D} \frac{\phi_I(I_r)^\top \phi_T(T_t)}{\|\phi_I(I_r)\| \|\phi_T(T_t)\|}

其中选定的目标图像I_t是与生成的目标图像描述最相似的一个。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值