Open World Object Detection: A Survey——开放世界目标检测综述

晚上看到一篇关于开放世界目标检测研究的综述文章想着拿来整体阅读一下,这里是自己的论文阅读记录,感兴趣的话可以参考一下,如果需要阅读原文可以看这里,如下所示:

摘要

探索新知识是人类的基本能力,这一能力可以在深度神经网络的发展中得到体现,特别是在目标检测领域。开放世界目标检测(OWOD)是一个新兴的研究领域,它将这一原则应用于探索新知识。它专注于识别和学习初始训练集中不存在的目标,从而在新类别标签引入时逐步扩展其知识库。本综述论文对OWOD领域进行了全面回顾,涵盖了问题定义、基准数据集、源代码、评估指标以及现有方法的比较研究等关键方面。此外,我们还探讨了开放集识别(OSR)和增量学习(IL)等相关领域,强调了它们与OWOD的相关性。最后,本文总结了当前OWOD算法面临的局限性和挑战,并提出了未来研究的方向。据我们所知,这是第一篇全面综述新兴OWOD领域的论文,引用了超过一百篇参考文献,标志着目标检测技术迈出了重要的一步。完整的源代码和基准测试在这里,如下所示:

关键词:开放世界,目标检测,增量学习,开放集识别

引言

目标检测,即在图像中定位和识别目标,对于现实应用至关重要。目标检测可以用于自动驾驶中识别和响应障碍物,以及机器人视觉中导航和与目标交互。此外,还有许多应用场景,例如视频监控以监控活动,医学成像以检测异常,以及工业自动化以确保质量控制。然而,传统的目标检测工作[1, 2, 3, 4]假设所有待检测的类别在训练时都存在,这导致了两个问题:1)图像可能包含目标检测器应分类的未知类别目标;2)当这些未知类别的信息可用时,模型应能够逐步学习新类别,而不忘记已学习的类别。

图1展示了开放世界目标检测问题的演示。(a) 在数据集Dt上进行训练。在时间t对数据集Dt进行训练时,采用了已知类别的注释,如绿色边界框所示。(b) 类无关区域提议。OWOD模型首先为所有类别的对象生成灰色边界框提议,如未知提议过程中所示。(c) 未知感知分类。先前已知和未知类别将分别检测为绿色和红色边界框。(d) 人工注释者。通过手动注释或自动标记技术,将为新对象(如“人类”)引入新的注释,如黄色边界框所示。在图示设置中,“自行车”类别未被注释。(e) 未知类别增量学习。在新类别增量学习过程之后,OWOD模型能够检测所有先前已知、新引入和未知对象提议,分别为绿色、蓝色和红色边界框。新引入的“人类”类别将被识别为“人类”,但未标记的“自行车”类别仍将被检测为“未知”类别。(最好以彩色查看)

受发展心理学实证研究[5, 6]的启发,这些研究表明识别知识中的差距对于培养好奇心和获取新知识的欲望至关重要[7, 8],Joseph等人[9]首次提出了开放世界目标检测(OWOD)的概念。这种方法专注于检测已知和未知类别,同时逐步学习识别的未知类别,反映了现实世界中知识不断增长的动态特性。

图2展示了开放世界目标检测的里程碑和发展。相关领域和方法的详细描述在第一节中呈现。

OWOD是一个新兴领域,近年来在研究工作中[10, 11, 12, 13, 14]逐渐受到关注,因为它与传统的目标检测有根本区别。传统方法局限于一组固定的预定义类别,限制了其在动态环境中的适应性。相比之下,OWOD旨在实现持续适应性,承认现实世界场景的不可预测性。传统模型可能会错误分类或忽略不熟悉的对象,而OWOD可以识别并可能标记这些“未知”对象,强调其适应性和可扩展性。传统系统依赖于详尽的数据集,通常需要计算密集型的重新训练以适应新类别。OWOD采用增量学习方法,可以无缝整合新数据,消除了这种广泛的重新训练需求。OWOD的一个显著优势是缓解了“灾难性遗忘”问题,这是增量学习领域中的一个挑战,即模型在更新新数据时会失去旧知识。这确保了OWOD在适应新输入的同时保留了先前学到的信息。本质上,OWOD提供了一种更具适应性、可扩展性和高效性的目标检测方法,更适合动态和不可预测的现实世界场景。

OWOD问题的简要演示如图1所示。随后的OWOD方法[10, 11, 12, 15, 14, 16]被提出并逐渐正式化了该领域的基准。MS-COCO数据集的80个类别被分为四个任务,每个任务由语义超类别区分,并选择每个任务类别的数据作为训练数据集。每个任务向模型引入20个类别。未知召回率和平均精度均值被报告为新类别和先前已知类别的结果。

图3展示了相关领域的关系。开放世界目标检测(OWOD)结合了目标检测、增量学习和开放集识别的特征。这三个研究领域两两结合形成了增量目标检测(ILOD)、分布外检测(OOD)和开放世界识别(OWR)研究主题。

为了更好地理解OWOD的发展和基础,回顾其在OSR和ILOD中的起源是重要的。如图2所示,该领域的里程碑按时间顺序列出。OWOD的基础概念建立在OSR和ILOD的先前工作之上。Scheirer等人于2012年开创了OSR,随后出现了基于深度学习的方法,如OpenMax[18]和CROSR[19]。ILOD[20]于2017年提出,并通过Faster ILOD[21]提高了速度和准确性。其他方法如RODEO[22]和iOD-ML[23]也表现更好。2021年,Joseph等人[9]综合了OSR和ILOD的概念,提出了OWOD,定义了一个模型来检测已知和未知类别,并逐步学习识别的未知类别,灵感来自现实世界知识增长的动态特性。这一综合标志着关键里程碑,导致了各种OWOD方法的发展,如OW-DETR[10]、RE-OWOD[24]、UC-OWOD[25]、PROB[11]、CAT[13]、OCPL[26]和OW-RCNN[14]。

尽管有许多关于传统目标检测的综合评论论文,如[27, 28, 29, 30, 31],但它们并未完全解决OWOD问题。相关调查如Geng等人[32]和Tian等人[33]分别涵盖了开放集识别和少样本类别增量学习,但未反映OWOD的增量学习方面。Boult等人[34]将OSR扩展到开放世界识别,包括大多数开放集深度网络。Wu等人[31]讨论了开放词汇目标检测,强调利用未知类别的文本信息和词嵌入,而OWOD没有这些额外信息,因此专注于系统在动态环境中适应新类别的能力。此外,随着相关方法数量的增加,提出了各种数据划分和评估指标。因此,没有一篇综合的调查论文总结了所有开放世界目标检测方法。

本综述论文旨在为计算机视觉和机器学习领域的研究人员和从业者,特别是对OWOD感兴趣的人提供参考。本文的范围涵盖了OWOD的基本概念、核心挑战、主流方法、基准测试和未来研究方向。通过系统地回顾和总结现有的OWOD工作,本调查旨在为相关研究人员和从业者提供全面的参考,帮助他们快速掌握当前OWOD的研究现状和发展趋势,并为该领域的未来研究提供见解和灵感。与之前的评论论文[32, 33]相比,本文是第一篇综述OWOD领域的论文,涵盖了OWOD领域的最新模型和方法。我们采用了与其他文献[32, 33, 28]不同的视角,即结合OSR和ILOD,同时考虑开放和增量学习的特点。通过对OWOD方向现有论文的深入分析和总结,我们根据区域提议和未知感知分类模块中使用的技术提出了一种新的OWOD算法分类方法。具体来说,我们首先在第二节介绍了骨干网络、基线模型以及增量学习和开放集识别等相关领域。在第三节中,我们全面回顾了现有的开放世界目标检测方法,包括其优缺点。标准基准测试,包括数据集和评估指标,在第四节中描述。基于基准测试,第四节还提供了对最先进方法的综合比较。最后,我们在第五节讨论了当前的挑战和未来方向,并在第六节总结了本文。

本综述的主要贡献总结如下:

  • 据我们所知,这是第一篇全面综述OWOD方法的论文,解决了对该领域当前研究状态进行调查、比较、分析和总结的迫切需求。

  • 我们提出了一种新的OWOD算法分类方法,根据区域提议和未知感知分类模块中采用的技术对技术进行分类。

  • 我们的论文独特地结合了开放集识别(OSR)、增量学习目标检测(ILOD)和开放词汇目标检测(OVOD)的概念,整合了开放和增量学习的特点,为OWOD提供了新的视角。

  • 我们描述了标准基准测试,包括数据集和评估指标,并基于这些基准提供了对最先进OWOD方法的综合比较。

相关工作

在本节中,我们回顾了开放世界目标检测(OWOD)的相关工作,包括第二节-A中常用的骨干网络,第二节-B中的目标检测基线,第二节-C中的开放集识别,以及第二节-D中的增量学习。OWOD相关领域的关系如图3所示。

骨干网络

“骨干”是指处理输入图像并提取特征的深度神经网络架构。目前有许多神经网络骨干是公开且开源的。由于其出色的性能和效率,一些骨干网络占据了主导地位,如视觉几何组的非常深的卷积网络(VGGNet)[35]、残差网络(ResNet)[36]、MobileNet[37]和EfficientNet[38]。

骨干网络的选择可以显著影响目标检测模型的性能。在OWOD的背景下,骨干网络应能够捕捉已知和未知类别的判别特征。近年来,骨干架构的进展,如引入基于Transformer的模型,如ViT[39]和DETR[40],在目标检测任务中显示出有希望的结果。这些模型利用自注意力机制捕捉长距离依赖关系和全局上下文,这对于检测复杂场景中的目标特别有益。骨干网络的演变,从早期的架构如VGGNet到更先进的模型如ResNet和Transformer,对提高目标检测和识别性能起到了重要作用。

目标检测基线

深度学习目标检测的发展多年来显著演进,目标检测方法在多篇综述中得到了全面探讨,如[27, 28, 29, 32, 41, 42, 43]。最初,目标检测模型依赖手工特征提取器,如Viola-Jones检测器[44]和方向梯度直方图(HOG)[45],这些方法速度慢且不准确。卷积神经网络(CNN)及其在图像分类中的应用,特别是在2012年ImageNet大规模视觉识别挑战赛(ILSVRC)中AlexNet[46]的成功,标志着视觉感知的一个转折点。这导致了计算机视觉领域的进一步研究和开发,产生了各种目标检测应用,包括自动驾驶、面部检测和安全系统。

随着时间的推移,目标检测模型演变为单阶段和两阶段检测器,每种检测器都有其优势和局限性。单阶段检测器如YOLO[1]以其速度著称,适合实时应用。与此同时,两阶段检测器如Faster R-CNN[2]往往更准确但速度较慢。现代进展还集中在为移动和嵌入式系统开发轻量级模型,强调高效和可扩展解决方案的需求。例如,EfficientDet[47]通过其可扩展设计实现了高准确性和效率。特征金字塔网络(FPN)及其变体[48, 49]提供了不同大小目标检测的可扩展性,促进了其他目标检测应用的发展[3]。Swin Transformer[50]引入了基于Transformer的骨干网络,预示着从传统CNN的范式转变。在这些巨大的工作中,简单且性能良好的目标检测模型(或基线模型)在这些骨干架构上开发,为评估新技术和架构的有效性提供了参考,包括OWOD。因此,我们回顾了使用不同骨干和基线的各种方法。

基于区域的卷积神经网络(R-CNN)[51]识别和定位图像中的目标。它分两个阶段操作:区域提议生成和目标分类。首先,提出包含目标的潜在感兴趣区域(RoI)。然后,分类分支将这些区域分类为特定的目标类别。

R-CNN的挑战在于其推理速度慢,因为使用选择性搜索生成提议。Fast R-CNN[52]引入了RoI池化,在提议之间共享卷积特征。这种共享方法通过减少冗余加快了检测速度。Faster R-CNN[2]引入了一个区域提议网络(RPN),直接生成提议,使架构可端到端训练。

Mask-RCNN[53]在Faster R-CNN的基础上增加了一个分支,预测目标掩码。这个掩码分支描绘了目标边界,增强了R-CNN的分割能力。

Faster R-CNN[2]可以集成各种特征提取器,如VGG和ResNet。其他R-CNN衍生包括特征金字塔网络(FPN)[48],融合多尺度特征图;Cascade R-CNN[54],通过递增的IoU阈值改进检测;以及选择性嵌套迭代池化(SNIP)算法[55],选择性池化区域提议以详细描述多尺度目标。

基于Transformer[56]的方法由于自注意力机制的高潜力,在所有基于学习的研究中被广泛使用。在OWOD领域也得到了广泛接受和研究。检测Transformer(DETR)[40]是一种基于Transformer的模型,直接预测目标边界框和类别标签,而不依赖于锚框等组件。DETR使用骨干CNN从输入图像中提取特征,然后通过Transformer编码器-解码器架构进行处理。自注意力机制使模型能够捕捉目标之间的关系和全局上下文,提高了定位和识别的准确性。在DETR的基础上,Deformable DETR[57]引入了可变形注意力模块。这些模块通过在输入特征图中进行自适应采样位置,增强了Transformer建模空间关系的能力。Deformable DETR通过解决常规网格注意力机制的局限性,提高了定位的准确性。DETR的一个关键设计是使用一对一集合匹配来建立其端到端能力,因此目标检测不需要手工设计的非极大值抑制(NMS)来去除重复检测。最先进的变体H-DETR[58]采用了一种混合匹配方案,在训练期间结合了原始的一对一匹配分支和一个辅助的一对多匹配分支。SETR[59]专注于解决目标检测中常规网格注意力的局限性。它引入了一个位置嵌入模块,编码目标提议的空间坐标,使模型能够推理目标的空间布局。Co-DETR[60]提供了一个新的训练框架,利用多个并行辅助头通过一对多标签分配进行监督,进一步提升了基于DETR方法的效率和有效性。

开放集识别

作为开放集识别(OSR)问题的扩展,开放世界目标检测(OWOD)继承了OSR的一些特征。因此,对OSR的概述可以帮助更好地理解OWOD。开放集识别是一种场景,其中训练数据在类别上不完整,测试期间可以提交给算法的未知类别。这意味着分类器必须能够准确分类已知类别并有效处理未知类别。简而言之,OSR是确定测试样本是否属于分类器训练的类别之一的能力。分布外(OOD)检测或开放集检测也在本节中介绍。

OSR算法可以根据[32]分为两类:判别模型和生成模型。从判别模型的角度来看,有两个子类别:传统机器学习(TML)算法和深度神经网络(DNN)算法。对于生成模型,实例生成和非实例生成算法是两个子类别。大多数现有工作集中在基于DNN的OSR上。不同OSR方法的详细总结如下。

基于TML的开放集识别

在OSR场景中,假设训练和测试数据来自相同分布的假设不再成立。这些方法旨在将传统机器学习方法适应OSR。这些方法可以根据传统机器学习方法分为几组。

基于SVM的方法通过在模型中引入开放空间风险项来适应支持向量机(SVM),以考虑KKCs的合理支持之外的空间。1-versus-Set机器[17]在得分空间中通过在SVM获得的分离超平面旁边添加另一个平行超平面来引入开放空间风险项。Weibull校准SVM(W-SVM)[61]将非线性核实现为一个解决方案,通过仅正标记具有有限测度的集合,进一步限制了开放空间风险,并结合了统计极值理论(EVT)进行得分校准,使用两个分离的SVM。基于稀疏表示的方法利用稀疏表示技术进行OSR。基于稀疏表示的开放集识别模型(SROSR)[62]使用EVT对匹配和非匹配重建误差分布的尾部进行建模。然而,它有局限性,例如在数据集包含极端姿态、光照或分辨率变化的情况下失败。基于距离的方法试图在OSR场景中实现基于距离的分类器。最近非异常值(NNO)[63]扩展了最近类均值(NCM)分类器,基于测试样本与KKCs均值之间的距离进行分类。它可以基于手动标记的数据动态添加新类别。基于边际分布的方法利用边际分布提供比软边际SVM更好的误差界限。极值机(EVM)[64]源于边际分布的概念,并通过将边际分布理论从每类公式扩展到样本公式,获得了一个理论上合理的分类器。

基于DNN的开放集识别

随着更强大的计算资源的发展,深度神经网络在许多应用场景中发挥了重要作用,包括开放集识别。然而,DNN在处理未知未知类别(UUCs)样本时经常做出错误预测,因为其固有的封闭集性质。以下基于DNN的OSR方法使用不同的方法来解决这个问题。

Bendale和Boult提出了OpenMax[18],用OpenMax层替换SoftMax层,并将每个类别表示为该网络倒数第二层中激活向量的均值(MAV)。然而,它无法识别对抗性图像,并且有局限性,例如不直接激励将类别样本投影到MAV周围。Hassen和Chan[65]提出了一种基于神经网络的开放集识别表示,以解决测试和训练距离函数不一致导致的测量不准确问题。继OpenMax之后,Prakhya等人[66]探索了开放集文本分类。Shu等人[67]通过用sigmoids的1-versus-rest最终层替换SoftMax层,提出了深度开放分类器(DOC)模型。Kardan和Stanley[68]提出了一种竞争性过完备输出层(COOL)神经网络,避免了神经网络在远离训练数据的区域过度泛化。Oza和Patel提出的C2AE模型[69]使用带有新颖训练和测试方法的类条件自编码器。

基于实例生成的开放集识别

基于实例生成的OSR方法旨在通过对抗学习(AL)技术生成的UUCs来考虑开放空间。这些方法采用生成模型和判别模型,其中生成模型学习生成样本,使判别模型将其视为非生成样本。Ge等人提出了生成OpenMax(G-OpenMax)[70],使用条件生成对抗网络(GAN)合成UUCs的混合物,并提供生成UUCs的显式概率估计。Yu等人提出的对抗样本生成(ASG)框架[71]可以应用于神经网络以外的各种模型,并且如果必要,可以生成UUCs和KKCs的数据。

非实例生成的开放集识别

作为非实例生成的OSR方法,基于Dirichlet过程的OSR方法[72]旨在将Dirichlet过程(DP),一种广泛用于聚类和密度估计问题的非参数先验,适应OSR场景。Geng和Chen[72]提出了一种基于集体决策的OSR模型(CD-OSR),将分层Dirichlet过程(HDP)适应OSR,并可以处理批量和单个样本。在训练阶段,CD-OSR进行共聚类过程以确定适当的参数。在测试阶段,它将每个KKC的数据建模为一组CD-OSR,使用具有未指定数量组件或子类的高斯混合模型(GMM)。完成共聚类后,可以识别代表相应类的一个或多个子类。然后,根据测试样本分配的子类是否与相应KKC相关联,将其分类为适当的KKC或UUC。

分布外检测

分布外(OOD)检测方法可以大致分为基于分类的方法、基于密度的方法、基于距离的方法和基于重建的方法。每类方法利用不同的方法来识别偏离训练分布的样本。基于分类的方法包括基于输出的技术和异常暴露。例如,ODIN[73]使用温度缩放和输入扰动来改善分布内和OOD样本之间的分离,而LogitNorm[74]在训练期间对logits施加恒定向量范数以产生更可靠的置信度得分。异常暴露(OE)[75]在训练期间使用外部OOD数据集来增强检测能力。基于密度的方法显式建模分布内数据的密度,将低密度区域标记为OOD。例如,使用类条件高斯分布[76],根据模型分布内的似然性识别OOD样本。基于距离的方法计算测试样本与特征空间中类原型或质心之间的距离。一些例子包括基于马氏距离的OOD检测[76]和基于KNN的方法[77],这些方法使用最近邻距离,不假设特征空间的任何特定分布。基于重建的方法依赖于自编码器或类似技术,通过分析重建误差来检测OOD样本,例如基于自编码器的方法[78]和MoodCat[79]。

总之,OSR实现了OWOD的部分目标。这些思想可以用于OWOD,以获得准确的未知检测和分类结果。然而,OSR或OOD模型无法在新标记的UUCs呈现时更新知识,这需要在以下部分中与增量学习结合。

增量学习

增量学习是一种机器学习方法,允许现有模型在不重新训练整个模型的情况下进行增量更新。在OWOD中,增量学习可以通过接收新数据或新任务逐步提高模型性能,而不会对现有知识造成太大干扰。这种方法在许多实际应用中非常有用,特别是在数据不断增长或任务不断变化的情况下。

为了在保持现有知识的同时获取新知识,增量学习应克服稳定性-可塑性困境。模型训练中存在一个常见缺陷,称为灾难性遗忘,即机器学习模型(尤其是基于反向传播的深度学习方法)在训练新任务时通常会在先前任务上表现出显著的性能下降。灾难性遗忘的一个主要原因是传统模型假设数据分布是固定的或平稳的,训练样本是独立同分布的。因此,模型可以反复看到所有任务的相同数据。然而,当数据成为连续数据流时,训练数据的分布是非平稳的。随着模型不断从这种非平稳数据分布中学习,新知识会干扰旧知识,导致模型性能迅速下降,甚至完全覆盖或遗忘先前学到的知识。

根据其算法,增量学习可以分为三类:基于正则化的方法、基于回放的方法和参数隔离方法。基于正则化和回放的增量学习范式受到了更多关注。参数隔离范式需要引入更多参数和计算复杂性,因此通常用于简单的任务增量学习。

基于正则化的增量学习

基于正则化的增量学习的主要思想是通过对新任务的损失函数施加约束来保护旧知识不被新知识覆盖。这些方法通常不需要模型使用旧数据重新学习先前任务。遗忘学习(LwF)[80]算法是一种典型的基于正则化的方法。这一思想源自知识蒸馏,通过蒸馏损失使新模型在新任务上的预测与旧模型在新任务上的预测相似。然而,这种方法的缺点是它严重依赖于旧任务和新任务之间的相关性,当任务之间的差异过大时,可能会出现任务间混淆。一些研究人员基于LwF算法提出了各种改进策略。一些知名方法包括基于低维特征映射的编码器终身学习(EBLL)[81]算法和基于贝叶斯框架的弹性权重合并(EWC)[82]算法。EWC算法对应于一种通用的参数约束方法。总之,基于正则化的增量学习方法通过引入额外损失来修正梯度,保护模型学到的旧知识,在特定条件下提供缓解灾难性遗忘的方法。然而,尽管当前的深度学习模型参数过多,模型容量仍然有限,我们通常需要在旧任务和新任务的性能之间取得平衡。

基于回放的增量学习

基于回放的增量学习的基本思想是回顾旧数据。在训练新任务时,保留旧数据的一个代表性子集,并用于回顾模型学到的旧知识。因此,这些方法需要考虑保留旧任务数据的哪一部分以及如何使用旧数据和新数据训练模型。iCaRL[83]是最经典的基于回放的增量学习模型,其思想类似于LwF。它也引入了蒸馏损失来更新模型参数,但放松了完全不使用旧数据的约束。一些[84][85]算法动态调整保留的旧数据数量,以避免计算成本随任务数量线性增长,从而避免了LwF算法中线性增加计算成本的缺点。iCaRL的增量学习方法更新了旧任务的参数,这可能导致模型对保留的旧数据过拟合。然后提出了GEM(梯度情景记忆)[86],只更新新任务的参数而不干扰旧任务的参数。GEM使用不等式约束来修改新任务的梯度更新方向,希望模型可以最小化新任务的损失而不增加旧任务的损失。总的来说,基于回放的增量学习的主要缺点是需要额外的计算资源和存储空间来回顾旧知识。当任务数量不断增加时,要么训练成本会增加,要么代表性样本的权重会被削弱。

总体而言,增量学习的优势在于可以在任何时间训练新数据,而无需保留大量训练数据,从而使存储和计算成本相对较低。此外,它可以有效避免隐私泄露问题,这在边缘计算的背景下非常有价值。然而,当前的增量学习仍然是一个非常开放的研究问题,大部分仍处于理论探索阶段。

增量学习目标检测

增量学习也可以用于目标检测领域,以处理开放世界目标检测问题。传统目标检测模型通常在固定数据集上从头开始训练,但增量学习允许模型在不丢弃先前学到的知识的情况下适应新信息。

基于蒸馏的方法广泛用于灾难性遗忘。ILOD[20]首先提出了解决这个问题。它包含一个冻结的原始检测器,用于选择与旧类别对应的提议并计算蒸馏损失。它还包含一个新适应的网络用于新类别。为了避免灾难性遗忘,两个网络通过提出的偏置蒸馏连接。为了在边缘加速过程,RILOD[87]提出了一种边界框蒸馏方法,在旧模型和新模型之间施加约束。在单个GPU上,学习一个新对象类别可以在不到2分钟内完成,并具有优越的检测准确性。类似地,Faster ILOD[21]提出了几种内部连接的适应性蒸馏。

还提出了一种基于回放的方法[22]用于目标检测。压缩图像将存储在缓冲区中以指导后续训练。模型的特征提取部分在早期训练后将被冻结。因此,只有网络的分类器部分可用于增量学习。

由于长尾效应,大多数新类别的对象数量有限。许多研究还考虑使用少样本学习或基于元学习的方法来解决这个问题。[88]提出了一种少样本学习方法,仅使用每个类别几个标记的例子逐步识别新类别。CentreNet被提出将目标检测重新表述为点+属性回归问题。CentreNet的优点是每个类别维护自己的预测热图,并通过激活阈值独立检测。为了注册新类别,它构建了一个基于元学习的网络,从支持集(少样本)生成特定对象的权重,对象定位器使用这些权重在测试图像中检测对象。类似的工作[23]使用元学习并将一些层设置为包装层。这些包装层对新任务具有更好的泛化能力,收敛速度更快,并缓解了灾难性遗忘。

开放词汇目标检测

开放词汇目标检测(OVOD)旨在增强目标检测模型,使其能够识别已知和未知目标类别,而无需预定义标签。这些方法根据[31]分为五个主要领域:知识蒸馏、区域文本预训练、使用更平衡数据的训练、提示建模和区域文本对齐。每类方法部署不同的策略,利用视觉语言模型(VLMs)中嵌入的大规模知识来增强传统封闭集目标检测器的能力。

知识蒸馏

这一类别利用VLMs中嵌入的广泛知识来增强封闭集检测器识别新目标类别的能力。例如,ViLD方法[89]结合了文本和图像分支的双分支机制,以促进视觉到视觉的知识转移。HierKD[90]和LP-OVOD[91]等方法通过引入损失修改和扩展框架以包含伪标签和全局级蒸馏模块等新模块,进一步改进了这一过程。这些修改旨在弥合高容量VLMs和封闭集检测模型之间的差距,增强目标检测模型在不同视觉领域的泛化能力。

区域文本预训练

这一策略利用大量可用的图像-文本对,并将其转换为丰富的训练资源用于目标检测模型。通过在区域级别对齐文本和图像特征,模型如OVR-CNN[92]和属性敏感OVR-CNN[93]学习将这些特征映射到共享的语义空间,从而显著提高新类别的检测能力。这一类别还包括其他方法,如GLIP[94, 95],利用自训练技术生成地面真值,从而通过在大规模数据集上的广泛预训练来增强检测和定位能力。此外,RO-ViT[96]引入了一种预训练方法,随机裁剪和调整区域位置嵌入的大小,并用焦点损失替换常见的softmax交叉熵损失。

使用更平衡数据的训练

为了解决训练数据集中数据不平衡的挑战,这一类别专注于策略,以提高常见和罕见目标类别的模型性能。Detic[97]等方法使用图像级监督更好地利用以目标为中心的分类数据,而MM-OVOD[98]引入多模态文本嵌入作为分类器,以丰富特征提取过程。此外,一些方法从大规模图像-标题对生成伪边界框注释(如PB-OVD[99]),利用先进的激活映射技术提高训练数据的准确性。

提示建模

这一创新方法通过纳入有效引导模型焦点的提示,使基础模型适应特定任务。PromptDet[100]和CORA[101]等方法尝试使用不同的提示结构和嵌入策略,以改进模型如何与新类别描述交互。这种方法侧重于增强模型将学到的提示纳入基础模型的能力,使模型更容易将知识转移到下游任务。Du等人[102]在检测提示(DetPro)上的工作引入了一种学习连续提示表示的新方法,结合了背景解释方案和上下文分级方案,以增强检测性能。

区域文本对齐

这一类别旨在实现细粒度识别能力,专注于仔细对齐文本特征与相应的视觉区域。OV-DETR[103]引入了一种基于Transformer的检测策略,通过创新的匹配机制增强对齐。DetCLIPv2[104]和F-VLM[105]等方法在此基础上,利用基于集合和个体区域到文本匹配的对齐策略,提高不同视觉场景下目标检测的准确性和鲁棒性。

在比较OVOD与开放世界目标检测(OWOD)时,明显的差异和相似之处显而易见。这两种应用都扩展了目标检测系统的能力,使其能够在更动态和不可预测的环境中运行。然而,OVOD主要使用开放词汇,利用语言和视觉预训练来识别新对象。相比之下,OWOD不仅检测已知和未知对象,还逐步学习这些未知对象,而不会忘记先前学到的类别。类无关区域提议、未知感知分类和未知类别的增量学习被整合在一起,以持续更新和适应检测模型。虽然OVOD旨在通过语言和视觉整合扩大可检测对象的范围,但OWOD解决了逐步适应新对象类别的额外挑战,更明确地解决了灾难性遗忘和适应问题。

OWOD方法

开放世界目标检测(OWOD)由三个主要任务组成:类无关区域提议、未知感知分类和未知类别增量学习。类无关区域提议源自开放集识别,而未知类别增量学习是类别增量目标检测的开放世界版本。在第一阶段,使用不同技术从背景中提取所有对象,无论其类别如何。在未知感知分类阶段,应分类先前已知类别和未知对象。在未知类别增量学习阶段,将提供检测到的未知对象的地面真值标签,并将这些未知类别学习为新的已知类别。不同的方法将用于缓解先前学到的类别的灾难性遗忘问题。

在本节中,我们正式定义了OWOD问题的定义及其与开放集识别和类别增量学习的关系。我们对大多数OWOD方法进行了回顾,并根据其未知检测方法将其分为不同分支。在表III中,我们回顾了大多数OWOD方法的不同特征,包括骨干网络、类别、会议、评估指标、未知分类和未知提议类别。大多数方法使用目标检测器基线,如Faster R-CNN[2]或Deformable DETR[57]作为骨干网络来提取对象特征。由于大多数OWOD方法遵循ORE[9]的训练和评估协议,因此列出了它们使用的评估指标。对于不同方法的分类,未知提议和未知分类两个不同过程分别分类。

问题定义

我们根据文献中现有的OWOD方法进行了最好的审查。根据其检测未知对象的方法,我们将这些方法分为四类:基于伪标签的方法、类无关方法、基于度量学习的方法和其他方法。每种方法的分类在表IV中总结。我们详细介绍所有类别的OWOD如下。

基于伪标签的方法

基于伪标签的方法采用伪标签技术在训练过程中选择未知对象。它们通常使用自定义的对象性分数来衡量所选区域是否包含对象。对象提议与已知类别不匹配且对象性分数最高的top-k提议将被伪标记为未知对象。基于伪标签的OWOD方法的常见结构如图5所示。

图5展示了基于伪标签的OWOD方法的框架。在特征提取和边界框提议之后,使用伪标签技术为未知对象提供标签。伪标签的选择基于自定义的对象性分数。黄色立方体和虚线箭头表示可能在不同模型中采用的结构。K表示提议属于先前已知类别,U表示提议来自未知类别。RPN代表区域提议网络。

ORE[9]是第一篇提出OWOD问题的论文,也是第一篇在OWOD领域使用伪标签技术的论文。Joseph等人提出了一种自动标记方案,将区域提议网络生成的具有最高对象性分数但与已知地面真值不重叠的背景对象提议标记为未知对象。使用两阶段Faster R-CNN[2]作为骨干目标检测器,本文引入了强评估协议,并基于对比聚类和基于能量的未知识别提供了一种新颖的OWOD解决方案。然而,根据基于聚类的未知感知分类方法,它被归类为基于度量学习的方法。ORE的详细信息将在基于度量学习的方法中介绍。

继ORE[9]之后,Gupta等人[10]提出了一种基于伪标签的OWOD方法,使用Deformable DETR[57]作为骨干网络,称为开放世界检测Transformer[10](OW-DETR)。作者认为单阶段Transformer将引入较少的归纳偏差,并且可以在多尺度上编码长距离依赖关系。此外,未知实例的无监督使得它更接近真实的开放世界设置。为了实现这一点,OW-DETR首先部署Deformable DETR进行多尺度上下文编码,以编码更丰富的上下文。其次,部署自下而上的注意力驱动的伪标签方案以更好地检测未知类别。使用骨干特征激活幅度的top查询被伪标记为未知对象,边界框由其对应的回归分支预测给出。第三,引入新颖性分类分支,以便未知实例可以与背景区分开来。最后,引入前景对象性分支,以更好地将前景对象(已知和未知)与背景分离,这允许知识从已知对象转移到未知对象。这种基于Transformer的OWOD方法比ORE[9]取得了更好的结果。

CAT[13]是另一种基于伪标签的OWOD方法,从OW-DETR[10]发展而来。作者认为人类固有地提取对象定位和识别过程。因此,提出了一种共享级联Transformer解码器,将目标检测解耦为两个部分。除了解耦的解码结构外,CAT还引入了注意力驱动的伪标签与选择性搜索相结合,自适应地生成未知对象的鲁棒伪标签。自适应伪标签方案显著提高了CAT检索未知对象的能力。Fast OW-DETR[106]也从OW-DETR[10]发展而来。作者认为OW-DETR的边界框位置不准确,且OW-DETR使用的注意力驱动的伪标签具有高计算复杂度。因此,部署了边界框细化技术和基于logits的简单伪标签方案。

由N. Dong等人提出的开放世界DETR[107]也是一种基于伪标签的OWOD方法。在模型预训练后,特征提取器和回归头的参数将被固定,以避免已知类别的偏差。然后,采用多视图自标记方案为未知实例生成伪地面真值,并对具有或不具有数据增强的图像对执行交换预测机制,以对同一图像的不同视图进行一致预测。此外,还实施了选择性搜索以帮助提议其他潜在的未知区域。最后,采用了示例回放和知识蒸馏策略来缓解增量学习的灾难性遗忘问题。

类无关方法

类无关方法将已知和未知对象视为相同的前景对象。通过分离对象检测和每个实例的识别,这些方法使用类无关对象提议器来衡量提议区域的对象性。由于类无关对象提议器被训练为学习对象性而不是分类器,因此不会引入已知类别的偏差。类无关OWOD方法的常见框架如图6所示。

图6展示了类无关OWOD方法的框架。类无关技术可以在特征提取或头部预测过程之后实现,如图中虚线所示。

Wu等人提出了一种类无关方法,称为两分支以对象为中心的开放世界检测(2B-OCD)[12],采用类无关以对象为中心的校准器来捕捉已知和未知实例的对象性。作者认为,先前工作中的分类器阻碍了泛化,因为它学习分类区域是否属于预定义类别。2B-OCD由一个以对象为中心的校准器和一个偏置引导检测器组成,具有相同的Faster R-CNN特征提取器。在训练过程中,以对象为中心的校准器的梯度不会返回,以减少已知类别的偏差。在参考阶段,部署以对象为中心的确认,确认对象性置信度高于阈值且不属于已知类别的提议为未知实例。

基于概率对象性的Transformer开放世界检测器(PROB)[11]是另一种基于类无关策略的方法。使用Deformable DETR[57]作为特征提取器,PROB通过添加“未知对象”类别标签并分离对象和对象类别预测来扩展基线。这允许模型分别学习对象性和对象类别概率。对象性头估计查询为对象的概率,而分类头将查询分类为已知或未知对象。在查询嵌入空间中使用多元类无关高斯分布来参数化对象性概率。为了实现更好的增量学习结果,PROB采用了示例回放策略来缓解灾难性遗忘。在前一模块中获得的对象性用于选择示例实例。作者认为,对象性低的实例有望提高模型在新对象上的性能,而对象性高的实例有望阻碍灾难性遗忘。

与2B-OCD[12]类似,OW-RCNN[14]是另一种使用Faster R-CNN作为骨干的类无关方法。作者提出了开放世界目标检测的三个挑战:类无关区域提议、未知感知分类和开放集错误校正。首先,区域提议网络(RPN)通过预测锚中心到地面真值边界框边缘的距离来生成未知感知区域提议。一个基于回归的定位质量头被训练来预测框头的输出中心性。其次,与大多数其他工作不同,OW-RCNN将未知和背景归为同一类别。通过比较对象性分数和每个类别的分数,OW-RCNN可以确定区域属于已知类别、未知类别还是背景。最后,使用高斯混合模型来确定检测网络分类输出的似然性,以减少开放集错误。模型在推理过程中用于检测检测网络是否做出了过度自信的预测。

D. Kim等人提出的无分类目标定位网络(OLN)[108]是另一种类无关方法。OLN使用Faster R-CNN作为骨干网络,并部署了一个类无关的RPN来生成区域提议。然后,使用基于回归的定位质量头来预测框头的输出中心性。与大多数OWOD方法不同,OLN在训练过程中不使用未知类别标签。为了缓解灾难性遗忘,OLN采用了示例回放策略。

基于度量学习的方法

如第三节-B所述,ORE[9]提供了一种基于对比聚类和基于能量的未知识别的新颖OWOD解决方案。对比聚类用于在潜在空间中强制类别分离。每个已知类别通过对比损失训练的原型向量逐渐演化。为了区分已知和未知实例,作者提出了一种基于能量的分类头,使用亥姆霍兹自由能。然而,ORE依赖于未知实例的弱监督,使用验证集估计未知类别的分布。

图7展示了基于度量学习的OWOD方法的框架。与基于伪标签的方法相比,应用了度量学习模块来帮助模型区分已知类别和未知类别。

Zhao等人提出的重新审视开放世界目标检测[24](RE-OWOD)利用类特定排除分类器(CEC)来确定提议是否属于任何已知类别。使用非参数选择性搜索作为辅助提议顾问(PAD)来确认由区域提议网络(RPN)生成的提议,原始RPN可以为后续的未知分类提供更准确的潜在未知提议。作者认为,基于DNN的判别分类器在OWOD设置中容易产生过度自信,因为没有未知类别的信息。因此,提出了CEC,通过注释信息校准每个已知类别的激活边界。如果所有类别都排除提议,这意味着提议不在任何已知类别的激活区域内,它将被预测为“未知”类别。

Yu等人[26]提出了一种基于类原型的度量学习方法,称为OCPL:通过判别类原型学习的开放世界目标检测。OCPL简单地使用Faster R-CNN作为特征提取器,并使用RPN生成潜在区域。提议嵌入聚合器用于使用基于距离的交叉熵损失优化每个类别的原型。为了压缩特征空间中已知类别的范围,提出了嵌入空间压缩器,以减少已知和未知分布之间的重叠。由于未知类别的高类内距离,基于余弦相似度的分类器在同一类别中形成更紧密的聚类。使用阈值忽略一些分类分数低的检测实例。

与之前的基于度量学习的OWOD方法相比,未知分类开放世界目标检测[25](UC-OWOD)可以实现不同的未知类别检测,更接近真实的OWOD设置。为了实现这一点,部署了未知标签感知提议,生成潜在未知区域,类似于ORE[9]。UC-OWOD将原始的单一未知分类头修改为未知判别分类头,可用于区分不同的未知类别。此外,还部署了基于相似度的未知分类,以确定未知实例对是否相似。实例对根据其区分难度逐渐引入,以更好地聚类实例。最后,使用软分配方法进行未知聚类细化,以提高UC-OWOD的鲁棒性,参考[113]。UC-OWOD还引入了UC-mAP和UC-Recall,可以更好地说明未知判别OWOD方法的特征。

其他方法

除了上述类别外,还有一些OWOD方法无法归类到任何上述类别中。一些方法甚至来自相关领域,如多模态目标检测、分布外检测等。这些方法展示了OWOD的潜力,因此包含在本综述中。

Ma等人[112]提出了一种基于退火标签转移学习的开放世界目标检测(OWOD)框架,利用对象级特征纠缠和标签转移方法检测未知对象,无需手动选择。该方法结合了锯齿退火调度,动态调整已知和未知类别之间的决策边界,显著提高了已知和未知检测的准确性。研究还提出了平衡指数,一种评估OWOD模型性能的指标,通过评估其在已知和未知检测上的表现。

Maaz等人[109](MAVL)提出了一种使用多模态架构的多尺度注意力ViT与后期融合的ORE[9]变体。MAVL使用多尺度可变形注意力模块处理多尺度图像特征。RoBERTa[114]模型用于提取相应文本标签的特征。后期融合用于视觉语言融合。为了实现开放世界目标检测,MAVL获得的类无关提议在ORE模型中用作伪标签。尽管单模态和多模态之间的比较不公平,因为引入了额外的文本信息,但MAVL为OWOD方法提供了另一个方向。

空间-时间未知蒸馏[110](STUD)是一种来自分布外(OOD)检测领域的未知感知目标检测方法。作者认为,可以使用能量分数[115]有效选择OOD数据。因此,使用标记的关键帧和未标记的参考帧,可以识别和蒸馏未知对象提议。L2​距离用于测量未知提议和地面真值标签之间的不相似性,以进行空间蒸馏。对于时间未知蒸馏,未知对象的特征向量被连接。该方法需要视频作为训练数据。因此,STUD无法使用OWOD方法的标准评估协议。

Liang等人介绍了“未知嗅探器”(UnSniffer)[111],一种增强已知和未知对象检测的新颖OWOD框架。与传统OWOD方法不同,UnSniffer利用广义对象置信度(GOC)评分,基于已知类别的知识区分对象和非对象,从而增强对未知对象的泛化能力。此外,框架用基于图的框确定方法替换标准非极大值抑制,以在推理过程中优化边界框选择。该方法通过聚类高置信度提议并从每个聚类中选择最具代表性的提议,有效处理重叠对象。为了解决训练中常见的未知对象抑制问题,UnSniffer使用负能量抑制损失来区分非对象背景,从而减少误报。此外,作者认识到现有基准在评估未知对象检测方面的不足,提出了未知对象检测基准(UOD-Benchmark),包括一个精细注释的数据集,用于测试未知对象检测性能。该基准的详细信息也在第四节-A中介绍。

S. Ma等人提出的借助“大脑”检测开放世界对象[15](DOWB)使用一个额外的大规模预训练的基于语言-图像模型的“大脑”作为OWOD模型的辅助模块。除了经典的OWOD模型,包括未知提议和未知分类模块,DOWB采用了一个带有Grounded Language-Image Pre-training[116](GLIP)模型的辅助模块来提供未知实例提议。作者认为,利用GLIP模型是非平凡的,因为未知标签会损害模型对已知对象的学习。为了缓解这些问题,他们提出了一个降权损失函数和解耦检测结构。降权训练策略利用生成的识别置信度生成软标签,并降权未知训练损失。训练损失函数包括几个部分,包括回归损失、框分数损失、分类损失等。然而,预训练模型引入了大规模数据集的额外知识。

数据集和评估指标

数据集

表V展示了在MS-COCO和PASCAL VOC数据集上的OWOD划分的任务组成,参考文献[9]。每个任务的语义以及每个任务的图像和实例(对象)数量如下所示。

表VI展示了在MS-COCO数据集上的MS-COCO划分的任务组成,参考文献[10]。每个任务的语义以及每个任务的图像和实例(对象)数量如下所示。

MS-COCO

MS-COCO数据集[117]是目标检测任务中最常用的数据集之一。该数据集包含164k张图像,其中83k用于训练,40k用于验证,41k用于测试。这些样本标记在80个不同的类别中。由于其规模和目标类别的多样性,MS-COCO已成为开发和测试各种现实场景中目标检测算法的有用资源。

Pascal VOC

PASCAL VOC[118]是另一个流行的目标检测基准。它包含20个不同类别(MS-COCO标签集的子集)的对象图像,如人、汽车、猫和狗等。每张图像都带有对象边界框、对象类别标签和对象分割掩码的注释。数据集包括室内和室外场景,对象以各种姿态、尺度和方向呈现。

新数据集

为了进一步从图像中标记综合的未知对象,基于MS-COCO[117]提出了COCO-OOD和COCO-Mixed[111]。首先,COCO-OOD将原始MS-COCO类别扩展为1655个未知对象。该数据集只有504张带有未知对象的图像。同时,COCO-Mixed包含2658个已知对象(包括原始COCO注释)和2533个未知对象。总共有897张图像。细粒度注释使COCO-Mixed成为一个更具挑战性的数据集。

OWOD任务中的数据集划分

在开放世界目标检测任务中,数据集根据两种策略划分为多个部分。首先,在原始OWOD任务中,Joseph等人[9]将MS-COCO数据集与PASCAL VOC数据集整合,提供更多样本,称为OWOD划分。具体来说,所有类别和相应的样本被分组为一组非重叠任务{T1,⋯ ,Tt}。PASCAL VOC数据集中的类别被视为任务T1T1​。其他类别按语义漂移分组为任务。数据集的详细信息列在表V中。

在最新的OWOD任务中,Gupta等人[10]提出了一种新的策略,通过跨超类别划分类别,称为MS-COCO划分。具体来说,对象类别按语义意义分组为相同任务。例如,在组合数据集中属于不同任务的卡车和车辆被分组为同一超类别任务:动物、人、车辆。更详细的统计数据在表VI中给出。

评估指标

这里,我们首先介绍OWOD任务中广泛使用的评估指标,包括荒野影响(WI)、绝对开放集错误(A-OSE)、平均精度均值(mAP)和未知召回率(U-Recall)。前两个指标旨在评估目标检测模型处理未知对象的有效性。此外,一些方法还报告了其他指标,以评估其模型的开放世界能力,如[24]中的未知平均精度均值(UC-mAP)、未知检测召回率(UDR)和未知检测精度(UDP),以及[111]中定义的未知F1分数。

荒野影响(WI)

荒野影响(WI)[119]评估未知对象对检测器性能的影响。WI指标可以根据算法检测到的已知和未知对象的精度计算为:

绝对开放集错误(A-OSE)

绝对开放集错误(A-OSE)[120]也用于评估检测器识别未知对象的性能。该指标报告被分类为任何已知对象的未知对象总数,提供了算法区分已知和未知对象的能力的度量。A-OSE分数越低,结果越好,表明算法能够有效区分已知和未知对象,而高A-OSE分数表明算法更有可能将未知对象错误分类为已知对象。

平均精度均值(mAP)

平均精度均值(mAP)是目标检测和识别模型常用的评估指标。该指标可以计算为:

其中N表示对象类别的数量。APi​表示在特定交并比(IoU)阈值(通常为0.5)下第ii类的平均精度。具体来说,在每个阈值下,首先根据模型的预测和地面真值标签计算精度和召回值。然后,计算精度-召回曲线下面积以获得第i类的AP值。总体而言,mAP是评估目标检测模型性能的有用指标,提供了模型准确和一致检测对象的能力的见解。

未知平均精度均值(UC-mAP)

未知平均精度均值(UC-mAP)[25]是mAP的变体,具有自动未知类别匹配:

未知召回率(U-Recall)

未知召回率(U-Recall)衡量分类器正确识别未知或新颖类别的能力。它通过模型正确检测为未知的未知样本的比例计算:

未知检测召回率(UDR)

未知检测召回率(UDR)[24]评估未知类别的准确定位。它可以计算为:

未知检测精度(UDP)

未知检测精度(UDP)[24]衡量所有定位的未知实例的准确分类。这可以通过以下公式计算:

未知F1分数(U-F1)

未知F1分数(U-F1)[111]报告了U-Recall和未知精度率(U-Pre)的调和平均值,以进行综合比较,可以计算为:

比较结果

在本小节中,我们展示了不同OWOD方法在前几节中的比较结果,并总结了它们在两种评估协议下的性能。选择了四个常用的评估指标来展示不同方法的特征。

在OWOD划分下的比较

在表VII中,我们在由PASCAL VOC和MS-COCO数据集组成的OWOD划分下评估了大多数最先进的方法,如第四节-B所述。ORE[9]的结果来自OW-DETR[10],排除了保留的验证集EBUI。请注意,由于引入了额外的训练信息,比较并不完全公平。许多引入额外信息的OWOD方法[109, 15]在未知召回指标上表现更好。具体来说,DOWB[15]方法实现了一个大规模图像-文本预训练模型,引入了来自预训练数据集的额外信息。MAVL[109]方法也使用了额外的文本模态信息来增强未知检测的性能。由于不同的评估协议和训练方法,前几节中的一些方法的结果不适用。

根据使用的骨干网络,模型分为Faster R-CNN和Deformable DETR(D-DETR)进行一般比较。当前已知的mAP(CK)表示当前任务中学习类别的平均精度均值。因此,先前已知的mAP(PK)表示先前任务中学习类别的平均精度均值。“Both”是所有已知类别的加权平均。

在MS-COCO划分下的比较

我们在OW-DETR[10]提出的MS-COCO划分下比较了不同方法,如表VIII所述。只有几个模型提供了MS-COCO划分的结果。ORE的结果来自OW-DETR[10],排除了保留的验证集EBUI,一些方法[15]引入了额外信息。

与OWOD划分相比,MS-COCO划分仅使用MS-COCO数据集作为训练和测试集,并在一个任务中引入所有超类别,以缓解任务间的数据泄露,并使OWOD更具挑战性。因此,MS-COCO划分的结果建议未来每个OWOD方法都报告。由于不同的训练策略和硬件设置,不可能重新训练所有OWOD方法以实现MS-COCO数据划分。因此,建议后续方法在MS-COCO和OWOD划分上提交结果。一些先前的方法可以将MS-COCO结果作为附录更新。

其他评估指标的比较

在表IX中,我们展示了最先进OWOD方法在其他评估指标下的比较结果。除了未知召回率(U-Recall),大多数OWOD方法还报告了荒野影响(WI)和绝对开放集错误(A-OSE)。WI和A-OSE在第四节-B中定义。向上箭头“↑”表示值越高,性能越好。向下箭头“↓”表示值越低,结果越好。

根据不同OWOD方法的结果,WI和A-OSE评估指标与U-Recall指标并不紧密相关。低WI和A-OSE值并不保证高未知召回率。这些评估指标的内在关系需要进一步研究。

增量学习性能的比较

在ORE[9]中,Joseph等人提出ORE减少了未知对象被分类为已知对象的混淆,并在增量目标检测中表现良好。因此,在ORE中报告了标准协议下的增量目标检测结果,一些后续方法也相应地报告了结果。增量学习的结果总结在表X中。

根据增量目标检测中使用的标准协议[20, 21],我们在Pascal VOC 2007的不同划分上评估了OWOD方法的增量学习性能。模型在某些(10、15或19)类别上训练,并逐步学习其他(10、5或1)类别。“旧类别”表示用作训练集的类别的mAP,“新类别”表示增量学习类别的mAP。“最终mAP”是所有20个类别的平均精度均值。

挑战和未来趋势

在本节中,我们讨论了开放世界目标检测的挑战,并指出了OWOD研究未来的一些潜在方向和趋势。

OWOD的挑战

基于OWOD框架和当前研究状态,我们将OWOD的挑战和问题总结如下。

未知提议

未知实例提议是OWOD的第一个关键挑战。由于训练数据仅包含已知对象的标记边界框,未标记区域可能包含遮挡的已知对象、未知对象或背景(无对象)。因此,未知实例的提议可能受到已知训练数据的偏差,这也被称为“已知偏差”。

为了解决这个问题,许多当前工作[9, 10, 106, 13, 24, 26, 25]使用伪标签来标记基于不同对象性分数的潜在未知实例。然而,对象性分数的训练基于已知对象的类无关实例提议。“已知偏差”问题并未完全解决。

除了伪标签,类无关OWOD方法通过将已知和未知对象视为相同的前景对象,并分离对象提议和检测分支,最小化了已知类别对对象提议模块的影响。提出了几种技术,如2B-OCD[12]中的无梯度返回、PROB[11]中的概率分离和OW-RCNN[14]中的基于定位质量的中心性头。尽管已知类别的训练数据仍不可避免地涉及,但与伪标签方法相比,结果总体上有所改善。

未知分类

与经典目标检测任务试图在已知类别和背景之间分类不同,OWOD任务处理额外的未知类别。未知类别的引入将为OWOD方法生成两个额外要求。首先,分类器需要将实例分类为已知、背景或未知。其次,根据[120],未知实例的引入将导致开放集错误,即未知对象被检测并错误分类为已知对象。

为了实现未知分类,大多数OWOD方法[9, 10]只是简单地添加另一个未知分类头。一些方法除了额外的分类头外,还添加了其他技术,如CAT[13]中的解耦解码器和OW-RCNN[14]中的高斯混合模型,以减少开放集错误。

基于度量学习领域的方法,提出了一些基于度量学习的未知分类算法[24, 26, 25]。与分类头不同,基于度量学习的方法试图在潜在空间中聚类相同类别的实例或从不同类别中排除实例。然而,与未知分类头相比,这些算法并未导致更好的分类准确性。

灾难性遗忘

与其他增量学习任务类似,OWOD也需要面对灾难性遗忘问题,因为标记的训练数据是逐任务呈现的。仅使用新数据微调模型会导致旧类别的灾难性遗忘。大多数OWOD方法采用示例回放策略来缓解这一问题。

尽管示例回放策略在一定程度上保持了先前已知类别的高准确性,但随着新标记数据的引入,结果仍然会下降。

统一的基准和评估协议

尽管许多方法遵循第一个OWOD方法ORE[9]的标准协议,但一些方法[10, 24]提供了其他评估指标和数据划分,导致多种实现细节。多个实现细节的一个潜在问题是,确定最先进方法的成功是由于创新概念还是仅仅是更好的超参数调整和改进的架构。因此,后续方法需要使用统一的基准和标准评估协议。

数据集划分的差异

继第一个OWOD算法ORE[9]之后,大多数方法报告了由PASCAL VOC数据集和MS-COCO数据集组成的OWOD划分下的结果。然而,来自相同超类别的潜在数据泄露使得OWOD划分不适合评估模型的开放世界能力。因此,OW-DETR[10]提出了MS-COCO划分,将超类别分组在不同任务中。尽管一些后续模型报告了OWOD划分和MS-COCO划分的结果,但其他先前的方法仅报告了OWOD结果。

由于不同的训练策略和硬件设置,不可能重新训练所有OWOD方法以实现MS-COCO数据划分。因此,建议后续方法在MS-COCO和OWOD划分上提交结果。一些先前的方法可以将MS-COCO结果作为附录更新。

未来趋势

本小节简要讨论了一些与开放世界目标检测相关的潜在未来研究方向。

OWOD与其他CV任务的结合

除了开放世界目标检测,开放世界设置的自然特性使其易于与其他研究领域结合,如语义分割、自监督学习、多视图学习、多模态学习、图像分类等。开放世界场景对于大规模模型非常有用,因为它将自动检测未知实例,无需使用所有数据集重新训练模型,从而节省大量计算资源。这些结合需要进一步研究。

泛化性

为了将开放世界目标检测推广到多个应用场景,类内和类间方差的平衡至关重要。高类内方差将使模型对同一类别内的不同实例具有鲁棒性,但可能会损害未知检测,因为未知实例容易被检测为已知类别之一。同样,类间方差将决定不同类别的边界,这可能会影响类内结果以及未知类别检测。这一方向还包括构建特定任务的数据集。

实际应用

在实际应用之前,开放世界目标检测仍有许多挑战。首先,这些方法的鲁棒性需要验证,包括对新类别和类内变化的鲁棒性。其次,推理速度或模型效率是另一个关键问题,因为在实际应用中计算资源并不总是强大的。最后,在不同应用场景中,已知和未知结果之间的平衡可以进行微调。[121]提供了一种新颖的方法,将OWOD应用于自动驾驶领域。

开放词汇目标检测

与OWOD类似,开放词汇目标检测(OVOD)问题首先由Zareian等人[92]提出,旨在超越训练阶段标记的有限基础类别集。其目标是识别推理阶段由广泛(开放)词汇表描述的新类别。然而,OVOD不具备逐步学习对象的能力。这些方法[89, 103]更多地关注利用大型文本-视觉模型进行未知检测。还有其他研究工作,如OvarNet[122],尝试分析其他信息(如属性或文本)对识别或检测的增益。因此,OVOD方法不在本综述的范围内。随着大型模型的出现,这些方向可以结合起来,为实际目标检测解决方案提供更多探索途径。

类无关方法

根据表VII,类无关方法在所有OWOD方法中实现了高未知召回率。这种类无关机制需要进一步研究其高准确性的具体原因。此外,输入驱动的伪标签(如选择性搜索)与模型驱动的结合是一个新的方向。选择性搜索作为一种非数据驱动的对象提议方法,不会受到已知类别的影响,符合OWOD的需求。这些方法可以进一步研究并与模型驱动的区域提议方法结合。

结论

总之,开放世界目标检测研究领域充满希望且正在兴起。尽管过去几年提出了一些相关算法和方法,但仍没有标准协议或基准来进行公平比较。OWOD研究仍面临许多挑战,如上所述。本文作为第一篇系统综述OWOD研究的论文,提供了大多数OWOD算法和方法、评估指标以及常用数据集的全面总结。此外,本文还分析了OWOD的当前挑战和未来研究方向。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Together_CZ

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值