极市平台 | 超越YOLO11和D-FINE！DEIM：最强实时目标检测算法

最新推荐文章于 2025-03-26 20:01:07 发布

双木的木

最新推荐文章于 2025-03-26 20:01:07 发布

阅读量2.5k

点赞数 24

分类专栏： CV-目标检测专栏 Transformer专栏深度学习拓展阅读文章标签：目标检测算法目标跟踪 YOLO 计算机视觉人工智能 transformer

本文链接：https://blog.csdn.net/csdn_xmj/article/details/144686465

版权

本文来源公众号“极市平台”，仅用于学术分享，侵权删，干货满满。

原文链接：超越YOLO11和D-FINE！DEIM：最强实时目标检测算法

极市导读

本文介绍了一种改进的DETR目标检测框架DEIM，通过增加正样本数量和优化匹配质量的损失函数，显著加快了DETR模型的收敛速度，并在多个数据集上提升了性能，成为当前最优的实时目标检测方案。DEIM通过Dense O2O和MAL两项技术改进，解决了DETR在监督信号和匹配质量上的不足，使其在实时目标检测领域的表现超越了YOLO系列模型。

DEIM: DETR with Improved Matching for Fast Convergence

arXiv: https://arxiv.org/abs/2412.04234

Project webpage：https://www.shihuahuang.cn/DEIM/
GitHub：https://github.com/ShihuaHuang95/DEIM

1. 背景：DETR目标检测框架

目标检测（Object Detection） 是计算机视觉中的核心任务，用于识别图像或视频中的所有目标，并为每个目标提供其类别和位置。简单来说，目标检测结合了分类和定位的能力，既要知道目标是什么，也要知道它们在哪儿。

目前主流的目标检测方法可以分为三类：

• 基于区域候选（Region Proposal）的方法：例如 R-CNN 系列（如 Faster R-CNN [1]）。
• 基于锚点（Pixel Anchor）的方法：例如 YOLO 系列（You Only Look Once [2]）。
• 基于可学习查询（Learnable Queries）的方法：例如 DETR 系列（Detection with Transformer [3]）。

实时目标检测（Real-time Object Detection） 要求模型不仅要精准，还要以极低的延迟（Latency）运行，通常需要达到或超过 30FPS，以满足实时应用需求。YOLO 系列因其优秀的性能和速度平衡，长期是实时检测领域的主流框架。它采用密集锚点（Dense Anchors）和“一对多”（One-to-Many, O2M）匹配策略，即在训练节点单个GT框会有多个匹配框优化bbox regression损失。这样的好处是，在训练过程中，对匹配的容错性比较高。为去除冗余框，YOLO 会使用非极大抑制（Non-Maximum Suppression, NMS）等后处理方法。

Detection with Transformer（DETR [3]） 是近年来备受关注的一种基于 Transformer 架构的目标检测方法。DETR 使用稀疏的可学习查