论文作者:Zelong Sun,Dong Jing,Zhiwu Lu
作者单位:Renmin University of China
论文链接:http://arxiv.org/abs/2502.20826v1
内容简介:
1)方向:零样本组合图像检索(Zero-Shot Composed Image Retrieval,ZS-CIR)
2)应用:图像检索
3)背景:现有的ZS-CIR方法通常依赖于字幕生成模型和大型语言模型(LLMs)来基于组合查询生成目标图像的描述。然而,这些方法存在一些问题,如模式不兼容、视觉信息丢失和推理不足,限制了其性能和应用。
4)方法:为了克服这些问题,提出了CoTMR框架,这是一种训练无关的ZS-CIR方法,结合了链式推理(Chain-of-thought,CoT)和多尺度推理。与传统方法不同,CoTMR不依赖字幕生成模型进行模式转换,而是利用大型视觉-语言模型(LVLM)来统一理解和推理组合查询。为增强推理的可靠性,研究设计了CIRCoT模块,通过预定义子任务指导LVLM进行逐步推理。此外,考虑到现有方法仅关注全局推理,CoTMR引入了多尺度推理,通过在对象尺度上对关键元素的有无进行细粒度预测,达到更全面的推理效果。最后,研究设计了多粒度评分机制(Multi-Grained Scoring,MGS),将上述推理输出的CLIP相似度评分与候选图像结合,以实现精准检索。
5)结果:大量实验表明,CoTMR在四个重要基准测试上显著优于现有方法,不仅在性能上取得了显著提升,还提供了良好的可解释性。