这篇文章提出了一种新的目标检测范式——通用开放世界目标检测(Uni-OWD),旨在解决传统目标检测模型在开放世界场景中的局限性。传统模型只能检测训练时见过的类别,而开放世界场景中可能会遇到未知类别的对象。为此,作者提出了YOLO-UniOW模型,结合了**开放词汇目标检测(OVD)和开放世界目标检测(OWOD)**的能力。
主要贡献:
-
自适应决策学习(AdaDL):通过轻量级的CLIP潜在空间对齐,替代了计算昂贵的跨模态融合,提升了检测效率。
-
通配符学习:引入“unknown”标签,能够检测未知类别的对象,并支持动态词汇扩展,无需增量学习。
-
高效性能:YOLO-UniOW在多个基准数据集(如LVIS、M-OWODB、S-OWODB和nuScenes)上表现出色,尤其是在开放世界场景中,能够同时检测已知和未知类别的对象。
实验结果:
-
在LVIS数据集上,YOLO-UniOW实现了34.6 AP和30.0 AP,推理速度达到69.6 FPS。
-
在开放世界检测任务中,YOLO-UniOW显著优于现有的最先进方法,尤其是在未知类别的检测上表现突出。
YOLO-UniOW通过结合自适应决策学习和通配符学习,提供了一种高效、多功能的开放世界目标检测解决方案,能够适应动态变化的现实世界场景,具有广泛的应用前景。这里是自己的论文阅读记录,感兴趣的话可以参考一下,如果需要阅读原文的话可以看这里,如下所示:
官方项目地址在这里。如下所示:
官方发布的预训练模型如下:
Model | #Params | APmini | APr | APc | APf | FPS (V100) |
---|---|---|---|---|---|---|
YOLO-UniOW-S | 7.5M | 26.2 | 24.1 | 24.9 | 27.7 | 98.3 |
YOLO-UniOW-M | 16.2M | 31.8 | 26.0 | 30.5 | 34 | 86.2 |
YOLO-UniOW-L | 29.4M | 34.6 | 30.0 | 33.6 | 36.3 | 64.8 |
摘要
传统的目标检测模型受限于封闭数据集的限制,只能检测训练时遇到的类别。虽然多模态模型通过对齐文本和图像模态扩展了类别识别能力,但由于跨模态融合引入了显著的推理开销,并且仍然受限于预定义的词汇表,导致它们在开放世界场景中处理未知对象时效果不佳。本文提出了通用开放世界目标检测(Uni-OWD),这是一种新的范式,统一了开放词汇和开放世界目标检测任务。为了解决这一挑战,我们提出了YOLO-UniOW,一种新颖的模型,推动了效率、多功能性和性能的边界。YOLO-UniOW引入了自适应决策学习,用CLIP潜在空间中的轻量级对齐替代了计算昂贵的跨模态融合,实现了高效的检测而不牺牲泛化能力。此外,我们设计了一种通配符学习策略,将分布外对象检测为“未知”,同时支持动态词汇扩展,而无需增量学习。这一设计使YOLO-UniOW能够无缝适应开放世界环境中的新类别。大量实验验证了YOLO-UniOW的优越性,在LVIS数据集上实现了34.6 AP和30.0 AP,推理速度为69.6 FPS。该模型还在M-OWODB、S-OWODB和nuScenes数据集上设立了新的基准,展示了其在开放世界目标检测中的卓越性能。
1 引言
目标检测长期以来一直是计算机视觉领域中最基础且广泛应用的技术之一,广泛应用于安全[46]、自动驾驶[57]和医学成像[13]等领域。许多杰出的工作已经取得了突破,如Faster R-CNN[41]、SSD[30]、RetinaNet[26]等。
近年来,YOLO(You Only Look Once)[1, 20, 40, 51]系列模型因其出色的检测性能和实时效率而受到广泛关注。最近的YOLOv10[51]通过采用一致的双分配策略,实现了高效的无需NMS的训练和推理,为物体检测设立了新标准。
然而,传统的基于YOLO的目标检测模型通常局限于封闭集定义,即感兴趣的对象属于预定义的类别集合。在实际的开放世界场景中,当遇到训练数据集中未出现的未知类别时,这些对象通常被错误分类为背景。模型无法识别新对象的能力也会对已知类别的准确性产生负面影响,限制了其在现实世界场景中的鲁棒应用。
得益于视觉语言模型的发展,如[3, 19, 39, 47],将其开放词汇能力与YOLO的高效目标检测相结合,为实时开放世界目标检测提供了一种有吸引力且有前景的方法。YOLO-World[4]是一个开创性的尝试,其中YOLOv8[20]被用作目标检测器,CLIP的文本编码器被集成为区域提议(即YOLOv8中的锚点)的开放词汇分类器。物体识别的决策边界来自CLIP文本编码器生成的类别名称表示。此外,引入了一种使用重参数化[6, 50]的视觉语言路径聚合网络(RepVL-PAN),以全面聚合文本和图像特征,实现更好的跨模态融合。
尽管YOLO-World在开放词汇目标检测(OVD)方面有效,但它仍然依赖于预定义的类别名称词汇表,该词汇表必须包括所有预期检测的类别。这种依赖性显著限制了其动态适应新出现类别的能力,因为提前确定未见过的类别名称本质上具有挑战性,使其无法真正实现开放世界。此外,RepVL-PAN的引入带来了额外的计算成本,特别是在词汇量较大的情况下,使其在现实应用中效率较低。
在本工作中,我们首先倡导一种新的通用开放世界目标检测(Uni-OWD)设置,其中我们鼓励使用一个统一模型实现开放世界目标检测(OWOD)和开放词汇目标检测(OVD)。具体来说,它强调模型不仅能够识别训练期间未见过的类别,还能有效地将未知对象分类为“未知”。此外,我们呼吁在YOLO-World之后提供一种高效的解决方案,以满足现实应用中的效率要求。为了实现这些目标,我们提出了YOLO-UniOW模型,以实现有效的通用开放世界检测,同时享受更高的效率。
我们的YOLO-UniOW强调了高效Uni-OWD的几个见解。(1) 效率。除了使用最新的YOLOv10[51]作为更高效的目标检测器外,我们引入了一种新颖的自适应决策学习策略,称为AdaDL,以消除RepVL-PAN中昂贵的跨模态视觉语言聚合,如图2(b)所示。AdaDL的目标是自适应地捕捉与任务相关的决策表示,以进行目标检测,而不牺牲CLIP的泛化能力。因此,我们可以在CLIP潜在空间中对齐图像特征和类别特征,而无需任何繁重的跨模态融合操作,实现高效且出色的检测性能(见图1)。(2) 多功能性。开放世界目标检测(OWOD)的挑战在于仅使用一个“未知”类别区分所有未见过的对象,而没有任何关于未知对象的监督。为了解决这个问题,我们设计了一种通配符学习方法,使用通配符嵌入来解锁开放词汇模型的通用能力。该通配符嵌入通过简单的自监督学习进行优化,无缝适应动态的现实世界场景。如图2(d)所示,我们的YOLO-UniOW不仅可以像YOLO-World一样从已知类别集的动态扩展中受益,即开放词汇检测,还可以突出显示任何分布外对象为“未知”类别,以实现开放世界检测。(3) 高性能。我们在LVIS[14]中评估了我们的零样本开放词汇能力,并在M-OWODB[44]、S-OWODB[16]和nuScenes[2]等基准上评估了开放世界方法。实验结果表明,我们的方法在高效OVD方面显著优于现有的最先进方法,在LVIS数据集上实现了34.6 AP、30.0 AP,速度为69.6 FPS。此外,YOLO-UniOW在开放世界评估中的零样本和任务增量学习中也表现良好。这些充分证明了所提出的YOLO-UniOW的有效性。
本工作的贡献如下:
-
我们倡导了一种新的**通用开放世界目标检测(Uni-OWD)**设置,以解决动态对象类别和未知目标识别的挑战,使用一个统一模型。我们提供了一种基于YOLO检测器的高效解决方案,最终形成了我们的YOLO-UniOW。
-
我们设计了一种新颖的自适应决策学习(AdaDL)策略,将决策边界的表示适应到Uni-OWD任务中,而不牺牲CLIP的泛化能力。得益于AdaDL,我们可以省去之前工作中使用的跨模态融合操作的繁重计算。
-
我们引入了通配符学习来检测未知对象,支持迭代词汇扩展并无缝适应动态现实世界场景。该策略消除了对增量学习策略的依赖。
-
在开放词汇目标检测和开放世界目标检测的基准测试中进行的广泛实验表明,YOLO-UniOW显著优于现有方法,充分展示了其多功能性和优越性。
2 相关工作
开放词汇目标检测
开放词汇目标检测(OVD)近年来成为计算机视觉领域的一个重要研究方向。与传统目标检测不同,OVD使得检测能够动态扩展类别,而不依赖于训练数据集中定义的固定类别集。一些工作探索了利用视觉语言模型(VLMs)来增强目标检测。例如,[4, 24, 28, 32, 42, 59, 60, 65, 68]利用大规模、易于获取的文本-图像对进行预训练,从而产生更鲁棒和可泛化的检测器,随后在特定目标数据集上进行微调。同时,[12, 36, 38, 53]专注于从VLMs中提取视觉-文本知识的对齐,强调蒸馏损失的设计和对象提议的生成。此外,[7, 11, 54]研究了各种提示建模技术,以更有效地将VLM知识转移到检测器中,增强其在开放词汇和未见类别任务中的表现。
开放世界目标检测
开放世界目标检测(OWOD)是目标检测领域的一个新兴方向,旨在解决动态类别检测的挑战。其目标是使检测模型能够识别已知类别,同时识别未知类别,并随着时间的推移逐步适应新类别。通过手动标注或主动学习[31, 43, 62]等方法,未知类别可以逐步转化为已知类别,促进持续学习和适应。
OWOD的概念最早由Joseph等人[21]提出,其框架依赖于增量学习。通过将基于能量的对象识别器集成到检测头中,模型获得了识别未知类别的能力。然而,该方法依赖于回放机制,需要访问历史任务数据来更新模型。此外,它在处理未知对象时往往偏向已知类别,限制了其泛化能力。为了解决这些限制,许多后续研究被提出。例如,[35, 67]通过引入更全面的基准数据集和更严格的评估指标改进了OWOD的实验设置,增强了未知类别检测的鲁棒性。尽管这些改进在受控实验环境中取得了有希望的结果,但它们对复杂场景和动态类别变化的适应性仍然不足。最近的研究重点转向优化特征空间,以更好地分离已知和未知类别。[9, 48, 55, 61]等方法提出了特征空间提取的改进,使模型能够更有效地提取未知对象的定位和识别信息。最近,一些方法[25, 34, 71]利用预训练模型进行开放世界目标检测,取得了显著改进。
参数高效学习
提示学习已成为自然语言处理(NLP)和计算机视觉领域的一个重要研究方向。通过为预训练的大型模型(如[39])提供精心设计的提示,提示学习使模型能够在无监督或半监督设置中高效执行特定任务。[17, 23, 56, 58, 69, 70]等方法引入了可学习的提示嵌入,超越了固定的手工提示,增强了各种视觉下游任务的灵活性。DetPro[7]是第一个将其应用于开放词汇目标检测的方法,使用从文本输入中派生的可学习提示实现了显著改进。
低秩适应(LoRA)[18]及其衍生方法[29, 63, 64]作为一种参数高效的微调技术,在适应大型模型方面表现出色。通过在预训练模型的权重矩阵中插入可训练的低秩分解模块而不改变原始权重,LoRA显著减少了可训练参数的数量。CLIP-LoRA[63]将LoRA引入VLM模型,作为适配器和提示的替代,能够以更快的训练速度和更好的性能进行下游任务的微调。
图3. 我们提出的高效通用开放世界目标检测流程。开放词汇预训练(左):使用多模态双头匹配进行高效的端到端目标检测,文本编码器中的AdaDL用于自适应决策边界学习。开放世界微调(右):利用校准的文本嵌入和检测器,在通配符的帮助下自适应地检测已知和未知对象。采用过滤策略去除重复的未知预测,确保高效且有效的开放世界目标检测。
3 高效的通用开放世界目标检测
问题定义
**通用开放世界目标检测(Uni-OWD)**扩展了开放词汇检测(OVD)和开放世界目标检测(OWOD)的挑战,旨在创建一个统一的框架,不仅能够检测词汇表中的已知对象,还能动态适应未知对象,同时在现实场景中保持可扩展性和效率。
Uni-OWD框架旨在开发一种检测器,利用文本词汇表和通配符来识别图像中的已知和未知对象类别,结合开放词汇和开放世界检测任务的优势。它确保对已知类别的精确检测和分类,同时为未识别对象分配通用“unknown”标签。这种设计促进了适应性和可扩展性,使其非常适合动态和现实世界的应用。
高效的自适应决策学习
设计适用于边缘和移动设备部署的通用开放世界目标检测模型需要高度重视效率。传统的开放词汇检测模型[4, 28, 42, 65]通过在早期层引入细粒度融合操作来对齐文本和图像模态。然后,它们依赖于两种模态的对比学习来建立对象分类的决策边界,使模型能够在推理过程中通过利用新的文本输入动态适应新类别。
YOLO-World[4]提出了一种高效的架构RepVL-PAN,通过重参数化执行图像-文本融合。尽管取得了进展,但模型的推理速度仍然受到文本类别输入数量的严重影响。这对低计算设备提出了挑战,随着文本输入数量的增加,性能急剧下降,使其不适合复杂多类场景中的实时检测任务。为了解决这个问题,我们提出了一种自适应决策学习策略(AdaDL),以消除早期层的繁重融合操作。
在构建决策边界时,大多数现有方法冻结文本编码器,并依赖预训练模型(如BERT[5]或CLIP[39])提取文本特征以与视觉特征交互。如果没有融合结构,文本特征难以动态捕捉与图像相关的信息,导致在仅调整图像特征时多模态决策边界构建不理想。为了克服这一点,我们的AdaDL策略旨在增强Uni-OWD场景训练期间的决策表示。具体来说,在训练期间,我们通过在所有查询、键、值和输出投影层中引入低秩适应(LoRA)来向文本编码器引入高效参数,可以描述为:
YOLOv10作为高效目标检测器。为了提高效率,我们将提出的自适应决策学习策略集成到最新的YOLOv10[51]中作为高效目标检测器。我们采用多模态双头匹配来适应YOLOv10中两个分类头的决策边界。具体来说,在区域锚点和类别文本之间的区域-文本对比学习期间,我们通过将区域嵌入与共享的、语义丰富的文本表示对齐来细化两个头的区域嵌入,从而实现无缝的端到端训练和推理。此外,我们集成了区域对比学习的一致双对齐策略,其中双头匹配过程形式化为:
因此,校准后的文本编码器和YOLO结构可以在早期阶段完全独立运行,消除了融合操作的需求,同时有效地适应更好的多模态决策边界。
图4. 已知/通配符学习的过程。先前已知类别的文本嵌入被冻结,而当前已知类别的嵌入使用真实标签进行微调。“unknown”通配符通过经过良好调整的通配符预测生成的伪标签进行监督。图中展示了经过良好调整的通配符的预测分数,以及与已知类别真实框具有低置信度分数或高IoU值(虚线框)的框被过滤掉。
开放世界通配符学习
在上一节中,我们介绍了AdaDL以提高开放词汇目标检测的效率,减少大输入类别文本对推理延迟的影响,同时提高其性能。该策略使现实世界应用能够在保持高效率的同时扩展词汇表,覆盖尽可能多的对象。然而,开放词汇模型本质上依赖于预定义的词汇表来检测和分类对象,这限制了它们在现实场景中的能力。一些对象难以通过文本输入预测或描述,使得开放词汇模型难以检测这些词汇表外的实例。
为了解决这个问题,我们提出了一种通配符学习方法,使模型能够检测词汇表中不存在的对象,并将其标记为“未知”而不是忽略它们。具体来说,我们直接利用通配符嵌入来解锁开放词汇模型的通用能力。如表4所示,经过决策适应后,通配符Tw(例如“object”)在零样本方式下展示了捕捉场景中未知对象的显著能力。为了进一步增强其有效性,我们在预训练数据集上对其文本嵌入进行了几轮微调。在此过程中,所有真实实例被视为属于同一个“object”类。这种微调使嵌入能够捕捉更丰富的语义,使模型能够识别可能被预定义特定类别忽略的对象。
4 实验
数据集
我们在两个不同的设置上评估我们的方法,针对OVD和OWOD。我们的实验利用多样化的数据集来全面评估模型在检测已知和未知对象方面的性能。
开放词汇目标检测:对于开放词汇检测,模型在Objects365[45]和GoldG[22]数据集的组合上进行训练,并在LVIS[14]数据集上进行评估。LVIS数据集包含1,203个类别,展示了罕见的、常见的和频繁类别的现实长尾分布。此设置侧重于评估模型对齐视觉和语言表示、检测新颖和未见类别以及在大规模长尾数据集上泛化的能力。
开放世界目标检测:对于开放世界目标检测,我们在三个已建立的OWOD基准上评估我们的方法:M-OWODB:该基准结合了COCO[27]和PASCAL VOC[8]数据集,其中已知和未知类别在任务中混合。它分为四个顺序任务。在每个任务中,模型学习新类别,而其余类别保持未知。S-OWODB:该基准仅基于COCO,通过超类分离已知和未知类别。nu-OWODB:该基准源自[25],基于nuSences数据集[2]。该基准专门设计用于评估模型在自动驾驶场景中的能力。nu-OWODB捕捉了城市驾驶环境的复杂性,包括拥挤的城市街道、具有挑战性的天气条件、频繁的遮挡和密集交通中对象之间的复杂交互。
通过结合这些基准,我们评估了模型处理现实世界OWOD挑战的能力,同时在多样化设置中保持鲁棒性和可扩展性。
评估指标
开放词汇评估:与YOLO-World和其他预训练模型类似,我们在LVIS minival数据集上评估预训练模型的零样本能力,该数据集包含与COCO验证集相同的图像。为了公平和一致的比较,我们使用标准AP指标来衡量模型的性能。
开放世界评估:我们将预训练的开放词汇模型适应开放世界场景,使其能够识别已知和未知对象。对于已知对象,我们使用mAP作为评估指标。为了进一步评估增量任务期间的灾难性遗忘,mAP分为先前已知(PK)和当前已知(CK)类别。对于未知对象,由于在场景中详尽标注所有剩余对象是不切实际的,我们采用Recall指标来评估模型检测未知类别的能力。此外,WI[21]和A-OSE[21]用于衡量未知对象对已知对象预测的干扰程度。然而,由于它们的不稳定性,这些指标仅用于参考。
实现细节
开放词汇检测:我们的图像检测器遵循YOLOv10[51],它提供了双头训练的高效设计。与YOLO-World[4]类似,我们使用预训练的CLIP文本编码器。然而,我们没有在颈部执行图像-文本融合。相反,我们仅使用高效的自适应决策学习在头部对齐两种模态。在预训练期间,我们将低秩矩阵引入CLIP文本编码器的所有投影层。矩阵的秩设置为16。我们的预训练在8个GPU上进行,批量大小为128。YOLO模型和LoRA参数的初始学习率为,权重衰减为0.025。
所有微调实验在8个GPU上进行,每个GPU的批量大小为16。值得注意的是,所有开放世界实验均使用一对一头进行评估,该头不需要NMS操作进行后处理。
定量结果
表1展示了具有高效自适应决策学习的模型在LVIS基准上显著提高了零样本性能,优于最近的实时最先进开放词汇模型[4, 42, 66]。对于小型模型(-S),我们观察到仅使用一对一头预测将罕见类别的检测性能提高了6.4%,常见类别提高了3.2%。此外,使用一对多头结构与NMS结合实现了更大的性能提升。这清楚地表明,在之前的预训练过程中,通过结合AdaDL完全构建了多模态决策边界。此外,利用高效模型架构和端到端检测的性质,我们的方法获得了更快的速度,并在推理过程中消除了对NMS的需求,使其在现实应用中非常高效。
为了满足开放世界的需求,我们调整了经过良好调整的开放词汇模型,通过通配符学习识别预定义词汇表中不存在的未知类别。如表2所示,开放词汇模型由于其丰富的知识在开放世界场景中表现出色。通过我们的通配符学习策略,模型在未知和已知类别识别方面均优于传统的开放世界方法。此外,它优于最近利用预训练模型的开放世界检测模型[10, 25, 34]。值得注意的是,我们更简单、更高效的方法超越了基于YOLO-World结构的最先进OVOW模型[25]。我们的方法在未知召回和已知mAP方面取得了显著改进,展示了其在开放世界检测任务中的有效性和鲁棒性。此外,我们评估了模型在现实世界自动驾驶场景中的能力。如表3所示,我们的模型使用更简单的方法,在未知检测性能方面优于其他方法。
得益于AdaDL和通配符学习策略,我们的模型通过通配符嵌入捕捉了更广泛的未知对象,同时保持了对已知类别的准确识别。值得注意的是,随着模型规模的扩大,模型检测已知和未知对象的能力逐步提高,这展示了我们方法在不同模型规模下的有效性。
消融研究
开放词汇检测:我们在小型模型上进行了一系列消融研究,以评估图像-文本融合的影响。由于实验设置的差异,我们首先在我们的设置下复现了YOLO-Worldv2-S。有趣的是,如表5所示,我们的研究结果表明,较小的批量大小和学习率在预训练中表现更好,特别是将频繁类别的检测提高了2.2%。在此基础上,我们移除了VL-PAN结构,观察到模型的检测精度基本不受影响。值得注意的是,它展示了罕见类别的更好泛化能力。将YOLO-World的YOLOv8结构替换为YOLOv10并使用双头匹配表明,一对多头从这些变化中受益更多,实现了比YOLO-World更好的性能。然而,一对一头仍然在对齐方面存在困难,特别是在罕见类别检测中。为了解决这个问题,我们使用AdaDL校准文本编码器,使图像和文本编码器同时学习决策边界,从而取得了显著改进。
如表6所示,我们比较了不同AdaDL方法校准文本编码器的效果。进行全微调提高了整体准确性,但降低了罕见类别的性能,可能是由于过拟合。我们假设这是由于图像和文本训练参数数量之间的巨大差距造成的。引入参数高效方法,如提示调优[70]和深度提示调优[23],显著改善了对齐,使一对一头能够与一对多头在性能上匹配。随着训练参数的增加,性能也有所提高。最后,在所有投影层中使用LoRA进行文本编码器进一步使文本信息适应区域感知。这种方法产生了最佳的整体结果,并被用于我们的最终实验。
开放世界检测:我们比较了使用未知类别标签(oracle)训练的封闭集YOLOv10和我们的开放词汇模型的零样本性能在M-OWODB数据集上的表现。结果显示在表4中,即使在零样本设置下,我们的开放词汇模型也比oracle训练的YOLOv10模型实现了更高的已知类别准确性。此外,当我们仅简单地使用普通“object”作为文本输入时,它比传统的owod方法实现了更好的未知召回,这进一步验证了我们开放词汇方法的有效性。通过应用我们的通配符嵌入,模型的未知检测能力得到了充分释放,在不同任务中超过了使用oracle监督训练的模型的性能。随着模型规模的扩大,其检测已知和未知类别的能力同时提高。
定性结果
对于开放词汇模型,我们输入LVIS数据集的1,023个类别名称作为提示,比较了YOLO-Worldv2在小规模上的零样本推理结果,使用LVIS 1023个类别名称作为文本提示。采用我们策略预训练的模型展示了在复杂场景中检测对象和识别更广泛新类别的卓越能力。
5 结论
在本工作中,我们提出了通用开放世界目标检测(Uni-OWD),这是一种新的范式,旨在解决动态对象类别和未知目标识别的挑战,使用一个统一框架。为此,我们引入了YOLO-UniOW,一种基于YOLO检测器的高效解决方案。我们的框架结合了几种创新策略:自适应决策学习(AdaDL)策略,无缝适应Uni-OWD任务的决策边界,以及通配符学习,使用“unknown”通配符嵌入来检测未知对象,支持迭代词汇扩展而无需增量学习。在开放词汇和开放世界目标检测的基准测试中进行的广泛实验验证了我们方法的有效性。结果表明,YOLO-UniOW显著优于最先进的方法,为开放世界目标检测提供了一种多功能且优越的解决方案。这项工作突出了我们框架在现实世界应用中的潜力,为该领域的进一步发展铺平了道路。