AAAI 2024 | 视觉定位标注难？浙大赵天成博士团队提出零样本定位新SOTA模型GroundVLP...-CSDN博客

本文链接：https://blog.csdn.net/c9Yv2cf9I06K2A9E/article/details/135353170

浙江大学赵天成博士团队提出的新模型GroundVLP，结合VLP和OVD模型，解决了视觉定位任务的数据稀缺问题。该模型在无需训练的情况下，通过GradCAM分数与目标检测框融合，实现了在多个视觉定位基准数据集上的优越零样本性能，甚至超越了有监督模型。这项研究已被AAAI 2024录用。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

视觉定位（visual grounding）要求根据自然语言 query 定位图像中相应的物体或区域，其标注费时费力，现有的有监督数据总计仅约 22 万条，严重限制了有监督视觉定位模型在通用领域数据上的泛化能力。

为了解决视觉定位任务上数据稀疏的困局，浙大团队开创性地提出利用在海量数据上预训练的视觉-语言模型（vision-language models，简称 VLP）与开放词汇目标检测模型（open-vocabulary object detector，简称 OVD），以零样本推理的形式实现在通用领域的上的视觉定位。

该方案名为 GroundVLP，精巧地融合了 VLP 模型输出的 GradCAM 分数与开放词汇目标检测模型输出的检测框，无需训练、泛化性能佳，在多个领域的视觉定位基准数据集上都取得了最佳的零样本推理性能，接近甚至超过在标注数据上训练的有监督模型的效果。

日前，该论文被人工智能国际顶会 AAAI 2024 录用。本文将详细解读这一优秀研究工作的动机、技术方案与应用效果。