Towards Open-Set Object Detection and Discovery(论文翻译)

本文提出了一种新的任务——开放集物体检测和发现(OSODD),旨在检测已知类别对象的同时,无须人工干预就能发现未知类别的新类别。与现有方法相比,OSODD通过两阶段框架,使用开集对象检测器识别已知和未知对象,随后在未知对象集合中发现新的类别。方法包括自监督对比学习和半监督k-means聚类,实现在MS-COCO数据集上的有效性能。实验结果表明,该方法在检测已知类别、发现新类别和类别估计方面均优于其他基线方法。
摘要由CSDN通过智能技术生成

Towards Open-Set Object Detection and Discovery

摘要

随着人类对知识的不断追求,开集目标检测(OSOD)被设计用于识别动态世界中的未知目标。然而,当前设置的一个问题是,所有预测的未知对象共享相同的类别为“未知”,这需要通过人工标记方法的增量学习来标记新的类别。为了解决这个问题,我们提出了一个新的任务,即开放集对象检测和发现(OSODD)。这项新任务旨在扩展开集对象检测器的能力,以进一步发现基于视觉外观的未知对象的类别,而无需人工努力。我们提出了一个两阶段的方法,首先使用一个开放集对象检测器来预测已知和未知的对象。然后,我们研究预测对象的表示在一个无监督的方式,并发现新的类别从未知对象的集合。通过这种方法,检测器能够检测属于已知类的对象,并以最小的监督为未知类的对象定义新的类别。展示了我们的模型在MS-COCO数据集上的性能,并进行了全面的评估。我们希望我们的工作将促进进一步的研究,以实现更强大的现实世界的检测系统。

1.介绍

目标检测是对图像中的目标进行定位和分类的任务。近年来,深度学习方法改进了检测模型[3,4,15,21,40,41,48],并取得了显着进展。然而,这些方法要求所有对象在训练阶段已知的假设下工作。由于这种假设,对象检测器错误地将未知类别的对象视为背景或将其分类为属于已知类别的集合[11](见图1(a))。

为了放开上述闭集条件,开集对象检测(OSOD)[11,26,34]考虑了一种现实的场景,其中测试图像可能包含在训练期间未出现的新类。OSOD的目的是从已知类的集合中检测已知对象并定位属于未知类的对象。尽管OSOD能够通过检测未知类的实例来提高对象检测的实用性,但是仍然存在未知类的所有识别的对象共享与“未知”相同的类别的问题(参见图1(b))。需要额外的人类注释来增量学习新的对象类别[26]。
在这里插入图片描述

图1.物体检测任务的视觉比较。在闭集检测中,来自看不见的类的对象被忽略或被错误地分类到已知类的集合中。而在开集对象检测中,未知对象被定位但共享相同的类别。我们的任务旨在检测已知类的对象,并为未知类的已识别对象发现新的视觉类别,这提供了更好的场景理解和可扩展的学习范式。

假设一个孩子第一次去动物园。孩子可以认出一些以前见过和学过的动物,例如“兔子”或“鸟”,而孩子可能不认识许多其他罕见动物的物种,如“斑马”和“长颈鹿”。在观察之后,孩子的感知系统将从这些以前没见过的动物的外观中学习,并将它们归类为不同的类别,即使没有被告知它们是什么物种。

在这项工作中,我们考虑了一个新的任务,其中我们的目标是定位已知和未知类别的对象,为已知对象分配预定义的类别标签,并为未知类别的对象发现新的类别(见图1(c))。我们将此任务称为开放集对象检测和发现(OSODD)。我们促进了我们提出的任务,OSODD,认为它更适合从图像中提取信息。新的类别发现提供了属于以前未见过的类别的数据的额外知识,帮助基于视觉的智能系统处理更真实的用例。

我们提出了一个两阶段的框架来解决OSODD的问题。首先,我们利用开集对象检测器的能力来检测已知类的对象并识别未知类的对象。 将已知类和未知类对象的预测建议框保存到内存缓冲区;其次,我们探索所有对象的循环模式,并从未知类的对象中发现新的类别。具体来说,我们开发了一种自监督的对比学习方法与域不可知的数据增强和半监督k-mean聚类用于未知类发现
我们的贡献:

  • 我们正式定义任务,开放集对象检测和发现(OSODD),这使得更丰富的理解在现实世界中的检测系统。
  • 我们提出了一个两阶段的框架来解决这个问题,我们提出了一个全面的协议来评估对象检测和类别发现的性能。
  • 我们提出了一个类别发现方法在我们的框架中使用:域不可知的增强,对比学习和半监督聚类。在实验中,新方法优于其他基线方法。

2.相关工作

开集识别
与闭集学习相比,闭集学习假设在测试期间仅存在先前已知的类,开集学习假设已知类和未知类共存。Scheirer等人[43]首先介绍在训练时具有不完整知识的开集识别问题,即,在测试期间可能出现未知类。他们开发了一种分类器,在一对多设置中,该分类器能够拒绝未知样本。[24,44]将[43]中的框架扩展到使用具有极值理论的概率模型的多类分类器,以最小化分类器的衰落置信度。最近,Liu et al.[33]提出了一种深度度量学习方法来识别不平衡数据集的不可见类。自我监督学习[14,38,46]方法已经被探索以最小化外部监督。

Miller等人(2018)的第一项研究探讨了在开放条件下使用标签不确定性进行物体检测的问题。他们使用一种称为丢失采样的技术来识别难以分类且标签不确定的物体。Dhamija等人(2018年)的第二项研究定义了OSOD问题,并评估了传统物体探测器在避免将未知物体错误分类为已知类别方面的性能。他们还提出了一项评估指标,用于评估开放条件下物体探测器的性能。
开放世界识别
开放世界环境是一种持续学习范例,它通过假设在每个递增的时间步中逐步引入新的语义类来扩展开放集合条件。这意味着模型需要能够处理随着时间的推移而引入的未知类。Bendale 等人首先正式确定了图像识别的开放世界设置,并提出了一种使用最接近的非异常值算法的开放集分类器。当通过重新校准类别概率为未知事物提供新标签时,模型就会演变。

Joseph等人[26]将开放世界设置转移到对象检测系统,并提出开放世界对象检测(OWOD)的任务。该模型使用的样本重放方法,使开放集检测器学习新的类增量,而不会忘记以前的。OWOD或OSOD模型不能探索所识别的未知对象的语义,并且需要额外的人工注释来增量地学习新的类。相比之下,我们的OSODD模型可以发现新的类别标签未知类的对象,而无需人工努力。
新类发现:
这项新颖的类别发现任务旨在识别未标记数据集中类似的重复模式。在图像识别中,此任务以前被视为无监督聚类问题。Xie等人提出了一种深度嵌入网络,该网络可以对数据进行聚类,同时学习数据表示形式。Han等人制定了新类别发现(NCD)的任务,该任务使用深度转移聚类将未标记的图像聚类到新类别中。NCD 设置假设训练集包含带标签的数据和未标记的数据,并且从标签数据上学到的知识可以转移到有针对性的未标记数据中进行类别发现。

对象发现和定位 (ODL) 是一项任务,旨在以无人监督的方式发现和定位具有多个对象类别的图像集合中的主要物体。Lee 和 Grauman 使用对象图和外观特征进行无监督发现,而 Rambhat 等人则假设对类标签有部分了解,并利用双内存模块进行了发现。与 ODL 相比, OSODD 任务对先前已知的类别进行检测,并发现未知物体的新类别,从而提供全面的场景理解。

请参阅表1,查看我们的设置与物体检测问题中其他类似设置之间的差异汇总。
在这里插入图片描述
表1.比较不同的目标检测和发现任务。OSOD:开集对象检测; ODL:对象发现和定位。Loc:意味着定位感兴趣的对象; Cat

### 回答1: Faster R-CNN是一种基于区域建议网络(Region Proposal Networks,RPN)的物体检测算法,旨在实现实时物体检测。它通过预测每个区域是否含有物体来生成候选框,并使用卷积神经网络(CNN)来确定候选框中的物体类别。Faster R-CNN在提高检测精度的同时,也显著提高了检测速度。 ### 回答2: 在计算机视觉领域中,目标检测一直是热门研究的方向之一。近年来,基于深度学习目标检测方法已经取得了显著的进展,并且在许多实际应用中得到了广泛的应用。其中,Faster R-CNN 是一种基于区域建议网络(Region Proposal Networks,RPN)的目标检测方法,在检测准确率和速度之间取得了很好的平衡,能够实现实时目标检测。 Faster R-CNN 的基本框架由两个模块组成:区域建议网络(RPN)和检测模块。RPN 主要负责生成候选目标框,而检测模块则利用这些候选框完成目标检测任务。具体来说,RPN 首先在原始图像上以多个尺度的滑动窗口为基础,使用卷积网络获取特征图。然后,在特征图上应用一个小型网络来预测每个位置是否存在目标,以及每个位置的目标边界框的坐标偏移量。最终,RPN 根据预测得分和位置偏移量来选择一部分具有潜在对象的区域,然后将这些区域作为候选框送入检测模块。 检测模块的主要任务是使用候选框来检测图像中的目标类别和位置。具体来说,该模块首先通过将每个候选框映射回原始图像并使用 RoI Pooling 算法来获取固定大小的特征向量。然后,使用全连接神经网络对这些特征向量进行分类和回归,以获得每个框的目标类别和精确位置。 相比于传统的目标检测方法,Faster R-CNN 具有以下优点:首先,通过使用 RPN 可以自动生成候选框,避免了手动设计和选择的过程;其次,通过共享卷积网络可以大大减少计算量,提高效率;最后,Faster R-CNN 在准确率和速度之间取得了很好的平衡,可以实现实时目标检测。 总之,Faster R-CNN 是一种高效、准确的目标检测方法,是深度学习计算机视觉领域中的重要应用之一。在未来,随着计算机视觉技术的进一步发展,Faster R-CNN 这类基于深度学习目标检测方法将会得到更广泛的应用。 ### 回答3: Faster R-CNN是一种结合了深度学习和传统目标检测算法的新型目标检测方法,旨在提高目标检测速度和准确率。Faster R-CNN采用了Region Proposal Network(RPN)来生成候选区域,并通过R-CNN网络对候选区域进行分类和定位。 RPN是一种全卷积神经网络,用于在图像中生成潜在的候选区域。RPN通常在卷积特征图上滑动,对每个位置预测k个候选区域和其对应的置信度得分。这样,对于输入图像,在不同大小和宽高比的Anchor上预测候选框,可以在计算上更有效率。 R-CNN网络利用卷积特征图作为输入,对RPN生成的候选区域进行分类和精确定位。与以前的目标检测方法相比,Faster R-CNN使用了共享卷积特征,使得整个检测网络可以端到端地进行训练和优化,缩短了训练时间,同时也更便于理解和改进。 Faster R-CNN不仅具有较高的准确性,还具有较快的检测速度。在各种基准测试中,Faster R-CNN与其他目标检测算法相比,都取得了优异的性能表现。总之,Faster R-CNN将目标检测引入了一个新的阶段,为实时目标检测提供了一个良好的基础。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

黄阳老师

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值