目标检测最新SOTA模型D-FINE

Funny_AI_LAB

已于 2024-10-18 23:22:23 修改

阅读量4.5k

点赞数 12

分类专栏：计算机视觉文章标签：目标检测人工智能计算机视觉

于 2024-10-18 23:10:04 首次发布

本文链接：https://blog.csdn.net/sexy19910923/article/details/143054214

版权

2024年10月18号，中科大推出了 D-FINE，这是一款功能强大的实时物体检测器，通过重新定义 DETR 模型中的边界框回归任务实现了出色的定位精度。

摘要

D-FINE 包含两个关键组件：细粒度分布细化 (FDR) 和全局最优定位自蒸馏 (GO-LSD)。

FDR 将回归过程从预测固定坐标转变为迭代细化概率分布，从而提供细粒度的中间表示，显著提高定位精度。
GO-LSD是一种双向优化策略，它通过自蒸馏将定位知识从细化分布转移到较浅的层，同时还简化了较深层的残差预测任务。

此外，D-FINE 在计算密集型模块和操作中采用了轻量级优化，在速度和准确性之间实现了更好的平衡。具体来说，D-FINE-L / X 在 NVIDIA T4 GPU 上以 124 / 78 FPS 的速度在 COCO 数据集上实现了 54.0% / 55.8% 的 AP。在 Objects365 上进行预训练时，D-FINE-L / X 的 AP 达到 57.1% / 59.3%，超越了所有现有的实时检测器。此外，此文的方法显著提高了各种 DETR 模型的性能，AP 高达 5.3%，而额外参数和训练成本几乎可以忽略不计。

代码和预训练模型：https://github.com/Peterande/D-FINE
paper地址：D-FINE: Redefine Regression Task in DETRs as Fine-grained Distribution Refinement