CVPR 2024 | PromptSG：开启语言引导行人检索新纪元，实现精准语义捕捉

最新推荐文章于 2024-07-10 08:41:33 发布

PaperWeekly

最新推荐文章于 2024-07-10 08:41:33 发布

阅读量1.1k

点赞数 19

文章标签：人工智能机器学习深度学习计算机视觉

本文链接：https://blog.csdn.net/c9Yv2cf9I06K2A9E/article/details/137805222

版权

©PaperWeekly 原创 · 作者 | 吴大衍

单位 | 中国科学院信息工程研究所

研究方向 | 多媒体大数据分析

借助对语义信息的深度挖掘，行人重识别技术取得了令人瞩目的进展。这些方法专注于提取图像中与语义紧密相关的部分，如人体的姿态、服饰等细节，从而实现了更加精准的对齐和匹配。

然而，当前的方法仍受限于单一图像模态的利用，缺乏直观且有效的语义引导。这导致模型在关注区域时，往往只聚焦于某些特定的局部判别部分，而无法全面而精准地捕捉所有与语义相关的区域。若想利用掩模或人体关键点作为引导方向时，就不可避免地需要额外的、耗时且劳动密集的手动标注。

得益于视觉-语言模型 CLIP 强大的多模态理解能力，来自中科院信工所的研究团队提出了基于文本提示的语义引导方法（PromptSG），旨在利用自然语言描述来引导模型关注语义一致性区域。该工作已入选 CVPR 2024 Highlight。

动机

随着大型视觉语言（VL）模型的崛起，CLIP 模型通过提供如 ‘A photo of a [CLASS]’ 这样的文本提示，展现出了卓越的零样本分类性能。这不禁让我们思考：我们能否进一步通过自然语言描述，如 ‘A photo of a person’，来引导模型关注感兴趣的区域呢？

然而，由于 CLIP 生成的视觉表示往往缺乏更细粒度的信息，直接将 CLIP 应用于行人重识别并非易事。此外，当使用 ‘A photo of a person’ 这样的查询时，由于缺乏具体的描述符，我们很难为个体身份识别提供个性化的提示。

已有工作 CLIP-ReID 尝试在 CLIP 基础上进行自动化的提示工程，然而，该方法存在两点局限性：（1）采用预定义的软提示可能不足以表征指定行人的整个视觉上下文。（2）解耦式的 Prompt 使用方式使

关注