本文来源公众号“极市平台”,仅用于学术分享,侵权删,干货满满。
原文链接:超越YOLO11和D-FINE!DEIM:最强实时目标检测算法
极市导读
本文介绍了一种改进的DETR目标检测框架DEIM,通过增加正样本数量和优化匹配质量的损失函数,显著加快了DETR模型的收敛速度,并在多个数据集上提升了性能,成为当前最优的实时目标检测方案。DEIM通过Dense O2O和MAL两项技术改进,解决了DETR在监督信号和匹配质量上的不足,使其在实时目标检测领域的表现超越了YOLO系列模型。
DEIM: DETR with Improved Matching for Fast Convergence
arXiv:
https://arxiv.org/abs/2412.04234
Project webpage:
https://www.shihuahuang.cn/DEIM/
GitHub:https://github.com/ShihuaHuang95/DEIM
1. 背景:DETR目标检测框架
目标检测(Object Detection) 是计算机视觉中的核心任务,用于识别图像或视频中的所有目标,并为每个目标提供其类别和位置。简单来说,目标检测结合了分类和定位的能力,既要知道目标是什么,也要知道它们在哪儿。
目前主流的目标检测方法可以分为三类:
-
• 基于区域候选(Region Proposal)的方法:例如 R-CNN 系列(如 Faster R-CNN [1])。
-
• 基于锚点(Pixel Anchor)的方法:例如 YOLO 系列(You Only Look Once [2])。
-
• 基于可学习查询(Learnable Queries)的方法:例如 DETR 系列(Detection with Transformer [3])。
实时目标检测(Real-time Object Detection) 要求模型不仅要精准,还要以极低的延迟(Latency)运行,通常需要达到或超过 30FPS,以满足实时应用需求。YOLO 系列因其优秀的性能和速度平衡,长期是实时检测领域的主流框架。它采用密集锚点(Dense Anchors)和“一对多”(One-to-Many, O2M)匹配策略,即在训练节点单个GT框会有多个匹配框优化bbox regression损失。这样的好处是,在训练过程中,对匹配的容错性比较高。为去除冗余框,YOLO 会使用非极大抑制(Non-Maximum Suppression, NMS)等后处理方法。
Detection with Transformer(DETR [3]) 是近年来备受关注的一种基于 Transformer 架构的目标检测方法。DETR 使用稀疏的可学习查