​CVPR 2024 | PromptSG:开启语言引导行人检索新纪元,实现精准语义捕捉

d385305b1da60a5a974e28a5dd56ec3a.gif

©PaperWeekly 原创 · 作者 | 吴大衍

单位 | 中国科学院信息工程研究所

研究方向 | 多媒体大数据分析

借助对语义信息的深度挖掘,行人重识别技术取得了令人瞩目的进展。这些方法专注于提取图像中与语义紧密相关的部分,如人体的姿态、服饰等细节,从而实现了更加精准的对齐和匹配。

然而,当前的方法仍受限于单一图像模态的利用,缺乏直观且有效的语义引导。这导致模型在关注区域时,往往只聚焦于某些特定的局部判别部分,而无法全面而精准地捕捉所有与语义相关的区域。若想利用掩模或人体关键点作为引导方向时,就不可避免地需要额外的、耗时且劳动密集的手动标注。

得益于视觉-语言模型 CLIP 强大的多模态理解能力,来自中科院信工所的研究团队提出了基于文本提示的语义引导方法(PromptSG),旨在利用自然语言描述来引导模型关注语义一致性区域。该工作已入选 CVPR 2024 Highlight。

2af2d312ecd92906a0e1463d4ad40d22.png

动机    

随着大型视觉语言(VL)模型的崛起,CLIP 模型通过提供如 ‘A photo of a [CLASS]’ 这样的文本提示,展现出了卓越的零样本分类性能。这不禁让我们思考:我们能否进一步通过自然语言描述,如 ‘A photo of a person’,来引导模型关注感兴趣的区域呢?

然而,由于 CLIP 生成的视觉表示往往缺乏更细粒度的信息,直接将 CLIP 应用于行人重识别并非易事。此外,当使用 ‘A photo of a person’ 这样的查询时,由于缺乏具体的描述符,我们很难为个体身份识别提供个性化的提示。

已有工作 CLIP-ReID 尝试在 CLIP 基础上进行自动化的提示工程,然而,该方法存在两点局限性:(1)采用预定义的软提示可能不足以表征指定行人的整个视觉上下文。(2)解耦式的 Prompt 使用方式使

  • 19
    点赞
  • 17
    收藏
    觉得还不错? 一键收藏
  • 3
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值