零样本组合图像检索(Zero-Shot Composed Image Retrieval,ZS-CIR)CoTMR: Chain-of-Thought Multi-Scale Reasoning fo

论文作者:Zelong Sun,Dong Jing,Zhiwu Lu

作者单位:Renmin University of China

论文链接:http://arxiv.org/abs/2502.20826v1

内容简介:

1)方向:零样本组合图像检索(Zero-Shot Composed Image Retrieval,ZS-CIR)

2)应用:图像检索

3)背景:现有的ZS-CIR方法通常依赖于字幕生成模型和大型语言模型(LLMs)来基于组合查询生成目标图像的描述。然而,这些方法存在一些问题,如模式不兼容、视觉信息丢失和推理不足,限制了其性能和应用。

4)方法:为了克服这些问题,提出了CoTMR框架,这是一种训练无关的ZS-CIR方法,结合了链式推理(Chain-of-thought,CoT)和多尺度推理。与传统方法不同,CoTMR不依赖字幕生成模型进行模式转换,而是利用大型视觉-语言模型(LVLM)来统一理解和推理组合查询。为增强推理的可靠性,研究设计了CIRCoT模块,通过预定义子任务指导LVLM进行逐步推理。此外,考虑到现有方法仅关注全局推理,CoTMR引入了多尺度推理,通过在对象尺度上对关键元素的有无进行细粒度预测,达到更全面的推理效果。最后,研究设计了多粒度评分机制(Multi-Grained Scoring,MGS),将上述推理输出的CLIP相似度评分与候选图像结合,以实现精准检索。

5)结果:大量实验表明,CoTMR在四个重要基准测试上显著优于现有方法,不仅在性能上取得了显著提升,还提供了良好的可解释性。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Qing_er爱吃山竹

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值