《------往期经典推荐------》
二、机器学习实战专栏【链接】,已更新31期,欢迎关注,持续更新中~~
三、深度学习【Pytorch】专栏【链接】
四、【Stable Diffusion绘画系列】专栏【链接】
五、YOLOv8改进专栏【链接】,持续更新中~~
六、YOLO性能对比专栏【链接】,持续更新中~
《------正文------》
论文地址:https://arxiv.org/abs/2412.20645
代码地址:https://github.com/THU-MIG/YOLO-UniOW
摘要
传统的目标检测模型受限于封闭数据集,只能检测训练时遇到的类别。尽管多模态模型通过对齐文本和图像模态扩展了类别识别能力,但由于跨模态融合引入了显著的推理开销,并且仍然受限于预定义的词汇表,因此在开放世界场景中处理未知对象时效果不佳。本文提出了通用开放世界目标检测(Uni-OWD),这是一种新的范式,统一了开放词汇和开放世界目标检测任务。为了应对这一挑战,我们提出了YOLO-UniOW,这是一种新颖的模型,提升了效率、多功能性和性能的边界。YOLO-UniOW引入了自适应决策学习(AdaDL),用CLIP潜在空间中的轻量级对齐替代了计算昂贵的跨模态融合,实现了高效检测而不牺牲泛化能力。此外,我们设计了通配符学习策略,能够将分布外对象检测为“未知”,同时支持动态词汇扩展,而无需增量学习。该设计使YOLO-UniOW能够无缝适应开放世界环境中的新类别。大量实验验证了YOLO-UniOW的优越性,在LVIS数据集上实现了34.6 AP和30.0 APr,推理速度为69.6 FPS。该模型还在M-OWODB、S-OWODB和nuScenes数据集上设立了新的基准,展示了其在开放世界目标检测中的卓越性能。
方法
Uni-OWD旨在统一开放词汇检测(OVD)和开放世界检测(OWOD)任务,使模型不仅能够识别训练时未见过的类别,还能将未知对象分类为“未知”。为了实现这一目标,YOLO-UniOW提出了以下关键方法:
-
自适应决策学习(AdaDL):通过引入低秩适应(LoRA)技术,AdaDL在CLIP文本编码器中动态调整文本特征,使其能够更好地与图像特征对齐,从而在无需跨模态融合的情况下构建更有效的决策边界。
-
通配符学习:通过引入“未知”类别的通配符嵌入,模型能够检测不在预定义词汇表中的对象,并将其标记为“未知”。该策略通过自监督学习进行优化,能够动态适应新类别的出现。
-
高效的双头匹配:YOLO-UniOW基于YOLOv10的双头匹配机制,通过区域文本对比学习,确保模型在检测已知和未知对象时都能保持高效和准确。
创新点
-
统一开放词汇和开放世界检测:YOLO-UniOW首次将开放词汇检测和开放世界检测任务统一在一个模型中,解决了动态类别和未知目标识别的挑战。
-
自适应决策学习(AdaDL):通过低秩适应技术,AdaDL在不增加计算开销的情况下,显著提升了模型在开放世界场景中的泛化能力。
-
通配符学习策略:该策略使模型能够检测未知对象,并支持动态词汇扩展,而无需进行增量学习,极大地提升了模型的适应性和扩展性。
实验结果
YOLO-UniOW在多个基准数据集上进行了广泛的实验验证,结果如下:
- LVIS数据集:在零样本设置下,YOLO-UniOW在LVIS数据集上实现了34.6 AP和30.0 APr,推理速度达到69.6 FPS,显著优于现有的开放词汇检测模型。
2. M-OWODB和S-OWODB数据集:在开放世界检测任务中,YOLO-UniOW在未知类别的召回率(U-Recall)和已知类别的mAP上均取得了显著提升,特别是在M-OWODB任务中,未知类别的召回率达到了80.6%。
3.nuScenes数据集:在自动驾驶场景中,YOLO-UniOW在未知类别的检测上表现优异,展示了其在复杂场景中的强大适应能力。
总结
YOLO-UniOW通过引入自适应决策学习和通配符学习策略,成功地将开放词汇检测和开放世界检测任务统一在一个高效的模型中。实验结果表明,YOLO-UniOW不仅在开放词汇检测任务中表现出色,还在开放世界检测任务中展现了卓越的性能和适应性。该模型为动态环境中的目标检测提供了新的解决方案,具有广泛的应用前景。
---

**好了,这篇文章就介绍到这里,喜欢的小伙伴感谢给点个赞和关注,更多精彩内容持续更新~~
关于本篇文章大家有任何建议或意见,欢迎在评论区留言交流!**