极市平台 | ICLR 2025 | 超越YOLOv10/11、RT-DETRv2/3！中科大D-FINE重新定义边界框回归任务

本文链接：https://blog.csdn.net/csdn_xmj/article/details/145415715

本文来源公众号“极市平台”，仅用于学术分享，侵权删，干货满满。

原文链接：ICLR 2025 | 超越YOLOv10/11、RT-DETRv2/3！中科大D-FINE重新定义边界框回归任务

极市导读

D-FINE 在 COCO 数据集上以 78 FPS 的速度取得了 59.3% 的平均精度 (AP)，远超 YOLOv10、YOLO11、RT-DETR v1/v2/v3 及 LW-DETR 等竞争对手，成为实时目标检测领域新的领跑者。目前，D-FINE 的所有代码、权重以及工具已开源，包含了详细的预训练教程和自定义数据集处理指南。

D-FINE 的作者均来自中国科学技术大学。第一作者为中科大在读博士生彭岩松 (https://scholar.google.com/citations?user=CTidez8AAAAJ&hl=zh-CN)，其研究方向为实时目标检测以及神经形态视觉，已在 AAAI、ICCV、CVPR 等国际顶级会议上以第一作者身份发表多篇论文。本文由吴枫教授、孙晓艳教授和张越一副研究员共同指导，其他作者包括中科大博士生李和倍及硕士生吴沛熹。

引言

在当前内卷严重的实时目标检测 (Real-time Object Detection) 领域，性能与效率始终是难以平衡的核心问题。绝大多数现有的 SOTA 方法仅依赖于更先进的模块替换或训练策略，导致性能逐渐趋于饱和。

为了打破这一瓶颈，来自中科大的研究团队提出了 D-FINE，重新定义了边界框回归任务。不同于传统的固定坐标预测，D-FINE 创新了两种方法：细粒度分布优化 (FDR) 和全局最优定位自蒸馏 (GO-LSD)。通过将回归任务转化为细粒度的分布优化任务，D-FINE 不仅显著简化了优化难度，还能够更精确地建模每条边界的不确定性。此外，D-FINE 将定位知识 (Localization Knowledge) 融入到模型输出，通过高效的自蒸馏策略在各层共享这些知识，因而在不增加额外训练成本的前提下，实现了性能的进一步显著提升。