Reason-before-Retrieve（CVPR 2025）-CSDN博客

本文链接：https://blog.csdn.net/qq_51526341/article/details/149690356

研究方向：Image Captioning

论文全名：《Reason-before-Retrieve: One-Stage Reflective Chain-of-Thoughts for Training-Free Zero-Shot Composed Image Retrieval》

1. 论文介绍

组合图像检索（CIR）旨在检索与参考图像密切相似的目标图像，同时整合用户指定的文本修改，从而更准确地捕捉用户意图。

本文提出了一种新颖的无训练的单阶段方法，用于零样本组合图像检索（ZS-CIR）的单阶段反思思维链推理（OSrCIR），该方法采用多模态大型语言模型来保留必要的视觉信息在单阶段推理过程中进行改进，消除了两阶段方法中的信息丢失。我们的反思思维链框架通过将操纵意图与参考图像的上下文线索对齐来进一步提高解释准确性。

2. 方法介绍

给定一个参考图像 $I_r$ 和一个操作文本 $T_m$ ，ZS-CIR从图像数据库 $D$ 中检索出与 $I_r$ 在视觉上相似的图像，同时结合 $T_m$ 中指定的修改。

我们将目标图像描述 $T_t$ 作为基于多模态大型语言模型（MLLM） $\phi M$ 的组合查询进行推理，为了确保 $\phi M$ 以人类可理解的方式推理 $T_t$ ，我们引入了一个反思思维链提示 $p_c$ 。然后使用获得的目标图像描述 $T_t$ 通过CLIP进行图像检索，并使用预训练文本编码器 $\phi T$ 将目标图像描述 $T_t$ 和候选图像 $I_c$ 嵌入到一个共享的、可搜索的空间中。用余弦相似度计算 $cos(\phi_I(I_c),\phi_T(T_t))$ 匹配分数。