2024年10月18号,中科大推出了 D-FINE,这是一款功能强大的实时物体检测器,通过重新定义 DETR 模型中的边界框回归任务实现了出色的定位精度。
摘要
D-FINE 包含两个关键组件:细粒度分布细化 (FDR) 和全局最优定位自蒸馏 (GO-LSD)。
- FDR 将回归过程从预测固定坐标转变为迭代细化概率分布,从而提供细粒度的中间表示,显著提高定位精度。
- GO-LSD是一种双向优化策略,它通过自蒸馏将定位知识从细化分布转移到较浅的层,同时还简化了较深层的残差预测任务。
此外,D-FINE 在计算密集型模块和操作中采用了轻量级优化,在速度和准确性之间实现了更好的平衡。具体来说,D-FINE-L / X 在 NVIDIA T4 GPU 上以 124 / 78 FPS 的速度在 COCO 数据集上实现了 54.0% / 55.8% 的 AP。在 Objects365 上进行预训练时,D-FINE-L / X 的 AP 达到 57.1% / 59.3%,超越了所有现有的实时检测器。此外,此文的方法显著提高了各种 DETR 模型的性能,AP 高达 5.3%,而额外参数和训练成本几乎可以忽略不计。
代码和预训练模型:https://github.com/Peterande/D-FINE
paper地址:D-FINE: Redefine Regression Task in DETRs as Fine-grained Distribution Refinement