开放世界物体检测,识别场景中任意目标

现有的目标检测器通常依赖于大规模基准数据集,但在不同的物体类别和场景(即领域)之间存在着巨大的性能差异,尤其是在开放世界中,当出现了与已知类别差异很大的未见类别,依赖基准数据集训练的检测模型大概率会失效。不能识别未知目标的短板也极大限制了目标检测器在实际场景中的泛化能力。例如,在自动驾驶场景中,未知物体的出现可能影响行车安全。

通用检测模型合集_人工智能

自动驾驶场景下意外跌落的未知物体可能影响行车安全

因此需要开发具有强大泛化能力的开放世界物体检测器(Open World Object Detection, OWOD),能够有效地处理未知类别和新领域的数据,其中模型的任务是:

  • 不需要重新构建数据集或进行大规模的重新训练;
  • 识别未被引入的物体实例为“未知”,而无需明确监督学习才能完成此操作;
  • 在逐渐收到相应标签时,增量学习这些已识别的未知类别,而不会遗忘先前学习的类别。

通用/开放世界-物体检测模型集合

本文列举近三年比较前沿的工作,具体如下:

通用检测模型合集_数据集_02

01. UniDetector

通用检测模型合集_异构_03

融合多个开源数据集

为了实现通用目标检测器能识别所有物体的能力,需要解决两个相应的挑战:

  • 第一个是使用多源图像进行训练。从不同来源收集的图像与异构标签空间相关联。现有的检测器只能从一个标签空间预测类,数据集之间特定于数据集的分类和注释不一致使得很难统一多个异构标签空间。
  • 第二个是关于新类别歧视。使用CLIP图像-文本的预训练模型和语言嵌入来识别看不见的类别,然而,完全监督的训练使检测器专注于训练期间出现的类别。在推理时,模型将偏向于基类,并为新类产生低置信度的预测。尽管语言嵌入使得预测新类成为可能,但它们的性能仍然远低于基本类别。

通用检测模型合集_目标检测_04

UniDetector的主要贡献:

  • 提出一个解决通用对象检测问题的框架,对应上图Step2:异构标签空间训练过程中使用一种解耦的方式训练,而不是采用联合的方式,从而该训练框架能够处理异构标签空间的图像并泛化到开放世界,解决多源图像训练的问题。
  • 提出解耦Proposal生成阶段和RoI分类阶段,对应上图Step3: Proposal生成通过传统的ImageNet预训练参数进行初始化,训练之后会产生一系列region proposals。RoI分类阶段使用预训练的图像文本参数初始化,用于预测未知类别。并引入概率校准来平衡预测的类别分布并提高新类别的自信度,解决新类别歧视的问题。

02. Randbox

通用检测模型合集_目标检测_05

RandBox主要针对现有方法存在未知目标低召回率的问题,从提高任意目标召回的角度,该工作是不是可以用于深度学习训练数据集中的漏标检查问题,主要改进如下:

  • 随机生成区域Proposal,而不是使用在已知对象上训练的Proposal采样器,这样可以探索更多可能的未知对象位置。
  • 提出了一个匹配分数,不惩罚未与已知对象匹配的Proposal,这样可以探索更多可能的未知对象提议。

通用检测模型合集_数据集_06

随机Proposal检测器,在训练中每个图像上随机生成500个边界框作为区域提议。基于Faster R-CNN的方法使用RPN预测的物体性作为匹配分数来选择Unknown-FG。然而,RPN被训练为仅在与已知对象匹配的Proposal上产生高分,因此惩罚了那些未匹配的Proposal。没有RPN的方法(如DETR)使用ROI特征的平均激活值。然而,这种启发式方法非常不可靠,未知对象Proposal经常被错误地放置在BG子集中,并被惩罚为“背景”。

03. OW-DETR

开放世界目标检测对于在潜在未知对象上生成高质量候选框,将未知对象与背景分离以及检测多样的未知对象提出了重大挑战。OW-DETR给出了一种端到端基于Transformer的解决方案,其中包括三个专用组件,即基于注意力的伪标记、新颖性分类和目标性评分。

通用检测模型合集_异构_07

如上图所示。首先,从中间特征获得的注意力图用于对物体查询进行评分。然后,查询的目标分数用于识别伪未知对象。在这些伪未知对象和已知对象之间强制执行分离以检测新类别。此外,还学习了背景和前景(已知+未知)之间的分离,以便从已知类别向未知类别有效地进行特征的知识转移。     

其中,基于注意力的伪标记方案是主要来获取候选未知查询的,从中间特征的注意力图上求取各个查询的平均分数(比如a-e),然后再用top-k来分配是不是物体,此阶段只区分unknown和no-objects两类,上图中a,b,c是unknown类别,d,e是非目标类别。同时针对上文提到的新类别歧视的问题,OW-DETR在训练中对未知对象没有监督,因此非常适合OWOD问题。

04. Object Localization Network

通用检测模型合集_异构_08

开放世界目标检测在训练阶段会出现新类别歧视的问题,该文的思路是既然你存在该问题,那么我直接舍掉类别分类的问题,转而提出了一种简单而有效的无分类器的 Object Localization Network 目标定位网络。

该网络纯粹通过区域的位置和形状与任何真实对象(例如中心度和IoU)的重叠程度来估计每个区域的目标性。这一简单策略学习了可泛化的对象性,在大词汇量数据集LVIS上展示了对长尾对象检测的优点,其中在罕见和常见类别中均有明显改善,对比结果如下图:

通用检测模型合集_目标检测_09

05. OWOD

通用检测模型合集_目标检测_10

论文的开放世界目标检测模型使用基于能量的分类头和对未知类别敏感的RPN来识别潜在的未知对象,此外,在特征空间中进行对比学习,以学习有区分性的聚类,并可以灵活地以连续的方式添加新的类别,而不会遗忘先前的类别。在每次增量学习步骤中,模型识别未知对象(表示为“?”),这些对象逐渐被标记(作为蓝色圆圈)并添加到现有的知识库(绿色圆圈)中。

通用检测模型合集_异构_11

上图(a)是模型在学习了一些类别之后产生的结果,这些类别不包括苹果和橙子。模型能够识别并正确地将它们标记为未知。一段时间后,当模型最终被教导去检测苹果和橙子时,这些实例被正确地标记,图(b)所示;模型不会忘记如何检测人。一个未知类实例仍然存在,并成功被检测为未知。