文章目录
Towards Open-Set Object Detection and Discovery
摘要
随着人类对知识的不断追求,开集目标检测(OSOD)被设计用于识别动态世界中的未知目标。然而,当前设置的一个问题是,所有预测的未知对象共享相同的类别为“未知”,这需要通过人工标记方法的增量学习来标记新的类别。为了解决这个问题,我们提出了一个新的任务,即开放集对象检测和发现(OSODD)。这项新任务旨在扩展开集对象检测器的能力,以进一步发现基于视觉外观的未知对象的类别,而无需人工努力。我们提出了一个两阶段的方法,首先使用一个开放集对象检测器来预测已知和未知的对象。然后,我们研究预测对象的表示在一个无监督的方式,并发现新的类别从未知对象的集合。通过这种方法,检测器能够检测属于已知类的对象,并以最小的监督为未知类的对象定义新的类别。展示了我们的模型在MS-COCO数据集上的性能,并进行了全面的评估。我们希望我们的工作将促进进一步的研究,以实现更强大的现实世界的检测系统。
1.介绍
目标检测是对图像中的目标进行定位和分类的任务。近年来,深度学习方法改进了检测模型[3,4,15,21,40,41,48],并取得了显着进展。然而,这些方法要求所有对象在训练阶段已知的假设下工作。由于这种假设,对象检测器错误地将未知类别的对象视为背景或将其分类为属于已知类别的集合[11](见图1(a))。
为了放开上述闭集条件,开集对象检测(OSOD)[11,26,34]考虑了一种现实的场景,其中测试图像可能包含在训练期间未出现的新类。OSOD的目的是从已知类的集合中检测已知对象并定位属于未知类的对象。尽管OSOD能够通过检测未知类的实例来提高对象检测的实用性,但是仍然存在未知类的所有识别的对象共享与“未知”相同的类别的问题(参见图1(b))。需要额外的人类注释来增量学习新的对象类别[26]。
图1.物体检测任务的视觉比较。在闭集检测中,来自看不见的类的对象被忽略或被错误地分类到已知类的集合中。而在开集对象检测中,未知对象被定位但共享相同的类别。我们的任务旨在检测已知类的对象,并为未知类的已识别对象发现新的视觉类别,这提供了更好的场景理解和可扩展的学习范式。
假设一个孩子第一次去动物园。孩子可以认出一些以前见过和学过的动物,例如“兔子”或“鸟”,而孩子可能不认识许多其他罕见动物的物种,如“斑马”和“长颈鹿”。在观察之后,孩子的感知系统将从这些以前没见过的动物的外观中学习,并将它们归类为不同的类别,即使没有被告知它们是什么物种。
在这项工作中,我们考虑了一个新的任务,其中我们的目标是定位已知和未知类别的对象,为已知对象分配预定义的类别标签,并为未知类别的对象发现新的类别(见图1(c))。我们将此任务称为开放集对象检测和发现(OSODD)。我们促进了我们提出的任务,OSODD,认为它更适合从图像中提取信息。新的类别发现提供了属于以前未见过的类别的数据的额外知识,帮助基于视觉的智能系统处理更真实的用例。
我们提出了一个两阶段的框架来解决OSODD的问题。首先,我们利用开集对象检测器的能力来检测已知类的对象并识别未知类的对象。 将已知类和未知类对象的预测建议框保存到内存缓冲区;其次,我们探索所有对象的循环模式,并从未知类的对象中发现新的类别。具体来说,我们开发了一种自监督的对比学习方法与域不可知的数据增强和半监督k-mean聚类用于未知类发现。
我们的贡献:
- 我们正式定义任务,开放集对象检测和发现(OSODD),这使得更丰富的理解在现实世界中的检测系统。
- 我们提出了一个两阶段的框架来解决这个问题,我们提出了一个全面的协议来评估对象检测和类别发现的性能。
- 我们提出了一个类别发现方法在我们的框架中使用:域不可知的增强,对比学习和半监督聚类。在实验中,新方法优于其他基线方法。
2.相关工作
开集识别
与闭集学习相比,闭集学习假设在测试期间仅存在先前已知的类,开集学习假设已知类和未知类共存。Scheirer等人[43]首先介绍在训练时具有不完整知识的开集识别问题,即,在测试期间可能出现未知类。他们开发了一种分类器,在一对多设置中,该分类器能够拒绝未知样本。[24,44]将[43]中的框架扩展到使用具有极值理论的概率模型的多类分类器,以最小化分类器的衰落置信度。最近,Liu et al.[33]提出了一种深度度量学习方法来识别不平衡数据集的不可见类。自我监督学习[14,38,46]方法已经被探索以最小化外部监督。
Miller等人(2018)的第一项研究探讨了在开放条件下使用标签不确定性进行物体检测的问题。他们使用一种称为丢失采样的技术来识别难以分类且标签不确定的物体。Dhamija等人(2018年)的第二项研究定义了OSOD问题,并评估了传统物体探测器在避免将未知物体错误分类为已知类别方面的性能。他们还提出了一项评估指标,用于评估开放条件下物体探测器的性能。
开放世界识别
开放世界环境是一种持续学习范例,它通过假设在每个递增的时间步中逐步引入新的语义类来扩展开放集合条件。这意味着模型需要能够处理随着时间的推移而引入的未知类。Bendale 等人首先正式确定了图像识别的开放世界设置,并提出了一种使用最接近的非异常值算法的开放集分类器。当通过重新校准类别概率为未知事物提供新标签时,模型就会演变。
Joseph等人[26]将开放世界设置转移到对象检测系统,并提出开放世界对象检测(OWOD)的任务。该模型使用的样本重放方法,使开放集检测器学习新的类增量,而不会忘记以前的。OWOD或OSOD模型不能探索所识别的未知对象的语义,并且需要额外的人工注释来增量地学习新的类。相比之下,我们的OSODD模型可以发现新的类别标签未知类的对象,而无需人工努力。
新类发现:
这项新颖的类别发现任务旨在识别未标记数据集中类似的重复模式。在图像识别中,此任务以前被视为无监督聚类问题。Xie等人提出了一种深度嵌入网络,该网络可以对数据进行聚类,同时学习数据表示形式。Han等人制定了新类别发现(NCD)的任务,该任务使用深度转移聚类将未标记的图像聚类到新类别中。NCD 设置假设训练集包含带标签的数据和未标记的数据,并且从标签数据上学到的知识可以转移到有针对性的未标记数据中进行类别发现。
对象发现和定位 (ODL) 是一项任务,旨在以无人监督的方式发现和定位具有多个对象类别的图像集合中的主要物体。Lee 和 Grauman 使用对象图和外观特征进行无监督发现,而 Rambhat 等人则假设对类标签有部分了解,并利用双内存模块进行了发现。与 ODL 相比, OSODD 任务对先前已知的类别进行检测,并发现未知物体的新类别,从而提供全面的场景理解。
请参阅表1,查看我们的设置与物体检测问题中其他类似设置之间的差异汇总。
表1.比较不同的目标检测和发现任务。OSOD:开集对象检测; ODL:对象发现和定位。Loc:意味着定位感兴趣的对象; Cat