​AAAI 2024 | 视觉定位标注难?浙大赵天成博士团队提出零样本定位新SOTA模型GroundVLP...

浙江大学赵天成博士团队提出的新模型GroundVLP,结合VLP和OVD模型,解决了视觉定位任务的数据稀缺问题。该模型在无需训练的情况下,通过GradCAM分数与目标检测框融合,实现了在多个视觉定位基准数据集上的优越零样本性能,甚至超越了有监督模型。这项研究已被AAAI 2024录用。
摘要由CSDN通过智能技术生成

689435ea92cdde6d4e95a74df2476435.gif

视觉定位(visual grounding)要求根据自然语言 query 定位图像中相应的物体或区域,其标注费时费力,现有的有监督数据总计仅约 22 万条,严重限制了有监督视觉定位模型在通用领域数据上的泛化能力。

为了解决视觉定位任务上数据稀疏的困局,浙大团队开创性地提出利用在海量数据上预训练的视觉-语言模型(vision-language models,简称 VLP)开放词汇目标检测模型(open-vocabulary object detector,简称 OVD),以零样本推理的形式实现在通用领域的上的视觉定位。

该方案名为 GroundVLP,精巧地融合了 VLP 模型输出的 GradCAM 分数与开放词汇目标检测模型输出的检测框,无需训练、泛化性能佳,在多个领域的视觉定位基准数据集上都取得了最佳的零样本推理性能,接近甚至超过在标注数据上训练的有监督模型的效果。

日前,该论文被人工智能国际顶会 AAAI 2024 录用。本文将详细解读这一优秀研究工作的动机、技术方案与应用效果。

96542d3f5151e6e555e7428ddeb31fa8.png

论文题目:

GroundVLP: Harnessing Zero-shot Visual Grounding from Vision-Language Pre-training and Open-Vocabulary Object Detection

论文链接:

https://arxiv.org/abs/2312.15043

收录会议:

AAAI 2024

a2a2f1f1cc55860a06bc17c29096ddc6.png

动机:视觉定位标注难?以有余补不足

视觉定位(visual grounding)是重要的视频-语言理解任务,要求根据自然语言输入定位图片中相关的物体与区域,包括两类子任务:

  • 指代表达理解(refering expressin comprehension,简称 REC):根据文本指代描述在图片中定位相应的单个物体;

  • 短语定位(phrase grounding):在图片中定位输入句子中的每个实体。

已有的视觉定位研究大多在特定任务的有监督数据集上进行模型训练和评估,但由于视觉定位需要精确地理解物体的相互关系和属性,标注起来费时费力,现有的可用数据加起来只有约 22 万条,和动辄数千万甚至数十亿的图文对数据和目标检测数据相比十分贫瘠。原文列出了视觉定位数据与图文对、目标检测可用数据的数量对比:

8c77d04e2aa47431a78a940ca6b0f259.png

▲ 三类数据的常见数据集和总量级对比

这种数据丰富程度的天壤之别也自然映射到了模型能力上,过去的研究中,在有限的视觉定位数据上训练的 visual grounding 模型对未见过的分布泛化能力差、应用领域受限。

而在海量数据上预训练的 CLIP [1]、ALBEF [2]、BLIP [3] 等视觉-语言预训练模型(vision-language models,简称 VLP)具备强大的零样

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值