视觉定位(visual grounding)要求根据自然语言 query 定位图像中相应的物体或区域,其标注费时费力,现有的有监督数据总计仅约 22 万条,严重限制了有监督视觉定位模型在通用领域数据上的泛化能力。
为了解决视觉定位任务上数据稀疏的困局,浙大团队开创性地提出利用在海量数据上预训练的视觉-语言模型(vision-language models,简称 VLP)与开放词汇目标检测模型(open-vocabulary object detector,简称 OVD),以零样本推理的形式实现在通用领域的上的视觉定位。
该方案名为 GroundVLP,精巧地融合了 VLP 模型输出的 GradCAM 分数与开放词汇目标检测模型输出的检测框,无需训练、泛化性能佳,在多个领域的视觉定位基准数据集上都取得了最佳的零样本推理性能,接近甚至超过在标注数据上训练的有监督模型的效果。
日前,该论文被人工智能国际顶会 AAAI 2024 录用。本文将详细解读这一优秀研究工作的动机、技术方案与应用效果。
论文题目:
GroundVLP: Harnessing Zero-shot Visual Grounding from Vision-Language Pre-training and Open-Vocabulary Object Detection
论文链接:
https://arxiv.org/abs/2312.15043
收录会议:
AAAI 2024
动机:视觉定位标注难?以有余补不足
视觉定位(visual grounding)是重要的视频-语言理解任务,要求根据自然语言输入定位图片中相关的物体与区域,包括两类子任务:
指代表达理解(refering expressin comprehension,简称 REC):根据文本指代描述在图片中定位相应的单个物体;
短语定位(phrase grounding):在图片中定位输入句子中的每个实体。
已有的视觉定位研究大多在特定任务的有监督数据集上进行模型训练和评估,但由于视觉定位需要精确地理解物体的相互关系和属性,标注起来费时费力,现有的可用数据加起来只有约 22 万条,和动辄数千万甚至数十亿的图文对数据和目标检测数据相比十分贫瘠。原文列出了视觉定位数据与图文对、目标检测可用数据的数量对比:
▲ 三类数据的常见数据集和总量级对比
这种数据丰富程度的天壤之别也自然映射到了模型能力上,过去的研究中,在有限的视觉定位数据上训练的 visual grounding 模型对未见过的分布泛化能力差、应用领域受限。
而在海量数据上预训练的 CLIP [1]、ALBEF [2]、BLIP [3] 等视觉-语言预训练模型(vision-language models,简称 VLP)具备强大的零样