论文阅读:Learning to Prompt for Open-Vocabulary Object Detection with Vision-Language Model

论文链接2205.10766.pdf (arxiv.org)

用视觉语言模型学习开放式词汇对象检测提示

摘要

在本文中,我们引入了一种新的方法,检测提示(DetPro),基于预训练的视觉语言模型来学习开放词汇目标检测的连续提示表示。与以往面向分类的方法不同,DetPro有两个亮点:1)背景解释方案,将图像背景中的建议纳入提示训练;2)上下文分级方案,在图像前景中分离提案,进行针对性的提示训练。我们将DetPro与最新的最先进的开放世界对象检测器ViLD组合在一起,在LVIS上进行实验,并在Pascal VOC、COCO、Objects365数据集上进行迁移学习。

实验结果表明,我们的DetPro在所有设置下都优于基线ViLD[7],例如,在新型LVIS上的+3.4 APbox和+3.0 APmask改进。代码和模型可在https://github.com/dyabel/detpro上获得。

引文 

本文提出了一种新的方法,称为检测提示(DetPro),用于预先训练的开放词汇对象检测设置下的提示表示学习最近有一些研究专注于提示表示学习,视觉语言模型(OVOD-VLM)。如CoOp[38],其目标是基于预训练的视觉语言模型提高图像分类精度。直接将CoOP应用到OVOD-VLM中是不现实的:图像分类只需要识别输入图像的正确标签,而目标检测则需要检测器区分前景和背景,并将前景中的区域建议划分为不同的目标类别。因此,我们引入了一种新的检测提示(DetPro)来自动学习OVOD-LVM中基于正面和负面建议的提示表示。

我们将DetPro与ViLD组装在一起[7],在LVIS上进行了一系列实验,并将LVIS训练的模型转移到Pascal VOC、COCO和Objects365等其他数据集上。在所有设置中,我们的DetPro都优于ViLD,例如,在新型LVIS上,+3.4 APbox和+3.0 APmask改进。

相关工作

提示学习

近年来,大型视觉语言模型(large vision-language model, VLM)如CLIP[18]、ALIGN[10]等出现,并在few-shot或zero-shot学习任务中得到应用[5,28]。vlm是在从web上收集的大量图像-文本对上进行训练,并采用对比学习[11]对图像和文本嵌入进行对齐。预训练的VLMs可以通过微调[16,26]或快速工程[38]转移到下游任务中。特定于任务的提示可以显著提高性能[18],但需要费力的提示工程。受语言任务中的提示学习的启发,CoOp[38]提出了上下文优化来自动化提示工程,用于少镜头分类。


它将提示的上下文建模为从一小组数据中端到端学习的连续表示。本文通过设计特殊的策略来处理图像中的前景和背景建议,将合作模式扩展到OVOD。CoOP使用所有类别的样本来学习提示,而DetPro仅在基类上进行训练,并期望推广到新类。

开放词汇对象检测

我们将工作置于OVOD设置中,并在ViLD上构建我们的解决方案[7]。ViLD使用手工制作的提示来生成类嵌入,而我们设计了细粒度的自动提示学习和特殊背景解释来找到所需的提示。

问题设置

DetPro的目标是学习OVOD-VLM的连续提示表示。图1显示了我们的DetPro的概述,它包括两个关键要素:负面提案包含的背景解释,量身定制的积极提案的前景背景分级。他们致力于数字中的正损失和负损失。随后,我们在图2中最新的OVOD管道ViLD[7]上设计了DetPro, DetPro替代了ViLD中的提议分类器,实现了对其的自动提示工程。

图1所示。DetPro概述定义了图像中正向建议的视觉嵌入与其对应的类嵌入之间的正向损失;而负损失则定义为负提案的视觉嵌入与全类嵌入之间的负损失。使用不同的定制的积极建议集(α < IoU(GT, Pos P) < β)来学习不同的提示表示并最终集成。

检测框架

我们采用Faster-RCNN与ResNet-50和FPN作为我们的检测器。

方法

我们首先回顾了图像分类中的提示表示学习,然后介绍了我们在目标检测中的DetPro;最后,将其组装到ViLD上进行OVOD。

提示

检测提示

 CoOP(Contrastive Object Prompt)中的提示表示学习策略应用于目标检测任务的解决方案。在目标检测任务中,每个训练图像都提供了对象的类别标签以及与对象相关的边界框的地面真实标注。在测试图像中,我们需要定位对象的边界框并为其预测类别。为了将 CoOP 中的策略应用于检测任务,模拟其在分类场景下的工作方式。

具体而言,对于每个训练图像,我们将其裁剪后的真实边界框作为输入,通过 CLIP 图像编码器 I(·) 获取每个边界框的嵌入表示 f。这里,每个地面真实边界框都属于一个对象类别 c。然后,可以使用相同的方程(3,4)来学习基于地面真实边界框的区域级分类器 G。最后,这个分类器可以与已建立的目标检测流程(例如 Faster R-CNN)结合使用,具体细节在第 4.3 节中有描述。

               

这种的适应方法在一定程度上是可行的,但是它只是一个次优解:它丢弃了图像中除真实边界框之外的丰富信息,包括前景和背景的提议,而这对于学习鲁棒的区域级(提议)分类器对于检测是至关重要的。

细粒度的解决方案

细粒度的解决方案,用于在目标检测中利用图像提案。首先,在基础类别CB上训练一个区域建议网络(RPN),从XT中提取这些提案。前景提案F是那些相对于真实注释G之一的IoU大于阈值(0.5)的提案,而背景提案B是相对于G中所有真实注释的IoU小于阈值的负提案。将F和G的并集称为正提案集P(即P = F ∪ G),将B称为负提案集N(即N = B)。对于P中的提案,除非它是其内部目标紧密边界的真实注释,否则它通常包含目标对象的大部分并具有相当大的周围背景。因此,正提案在上下文中的变化取决于它们相对于地面真相的IoU,这将导致在输入到I(·)中时具有不同的视觉嵌入。因此,需要学习不同的提示表示,以适应不同的上下文。为了解决这个问题,引入了一个上下文分级方案,用于定制正提案(稍后指定)。另一方面,对于N中的提案,它主要包含背景,并可能包含一小部分目标对象。由于背景没有特定的类别名称,因此不能直接获取其提示表示(在Eq.1中没有wc),也没有其类别嵌入。负提案在目标检测中起着非常重要的作用。为了在检测提示中利用它们,引入了一个负提案包含的背景解释方案。

具有定制正提案的上下文分级

一个积极的提议可能包含不同的上下文,而不是目标对象。这种差异可以在提示上下文中进行类比:给定一个对象类的基础真值边界框,我们可以说' a photo of [class] ';当给出一个局部物体的前景图时,我们可以说“局部[CLASS]的照片”。“照片的”和“部分的照片”的学习提示上下文表示将是不同的,这最终导致两种类型的提示具有不同的类嵌入。

将DetPro组装到ViLD上

ViLD[7]是OVOD的最新框架。它将CLIP[18]中的知识提炼成一个两级检测器,即Faster R-CNN[20]。图2显示了将DetPro与ViLD组装在一起。

组合DetPro与ViLD。DetPro以天蓝色背景突出显示。我们在训练和测试流程中省略了类别无关的边界框回归分支和掩码预测分支。

表1。在LVIS v1数据集上与ViLD的比较。*表示我们重新实现的版本,详见5.2节。频繁和常见的类被用作基类,而罕见的类被保留为新类。APr是开放世界目标检测的主要评价指标。

实验 

数据集和评估指标

我们主要在LVIS v1[8]数据集上进行实验。DetPro及其开放词汇对象检测器是在LVIS基类上训练的。我们在LVIS新课上评估了我们的方法。同时,我们进行了迁移实验来验证我们方法的泛化能力,并在Pascal VOC[4]测试集、COCO[15]验证集和Objects365[23]验证集上对我们的lvis训练模型进行了评估。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值