超越yolo系列的RT-DETR目标检测原理与简介

最新推荐文章于 2025-04-02 11:20:21 发布

E寻数据

最新推荐文章于 2025-04-02 11:20:21 发布

阅读量2.1k

点赞数 22

分类专栏： python 计算机视觉深度学习文章标签： YOLO 目标检测目标跟踪深度学习 pytorch RTDETR

本文链接：https://blog.csdn.net/qq_42452134/article/details/135702714

版权

深度学习同时被 3 个专栏收录

80 篇文章

订阅专栏

python

53 篇文章

订阅专栏

计算机视觉

27 篇文章

订阅专栏

参考论文：https://arxiv.org/abs/2304.08069

简介

T-DETR是第一个实时端到端目标检测器。具体而言，我们设计了一个高效的混合编码器，通过解耦尺度内交互和跨尺度融合来高效处理多尺度特征，并提出了IoU感知的查询选择机制，以优化解码器查询的初始化。此外，RT-DETR支持通过使用不同的解码器层来灵活调整推理速度，而不需要重新训练，这有助于实时目标检测器的实际应用。RT-DETR-L在COCO val2017上实现了53.0%的AP，在T4 GPU上实现了114FPS，RT-DETR-X实现了54.8%的AP和74FPS，在速度和精度方面都优于相同规模的所有YOLO检测器。RT-DETR-R50实现了53.1%的AP和108FPS，RT-DETR-R101实现了54.3%的AP和74FPS，在精度上超过了全部使用相同骨干网络的DETR检测器。

RT-DETR的核心创新

RT-DETR采用了多尺度的Transformer Encoder（MSE），这是其设计的核心。它能够处理不同尺度的特征，实现了特征间有效的信息交互和融合，这对于提升模型的检测精度至关重要。RT-DETR通过这种方式优化了传统DETR模型中的特征处理方法，显著提高了处理速度和精度.

高效的混合编码器

RT-DETR采用了高效的混合编码器设计，这一设计包括两个主要部分：基于注意力的尺度内特征交互（AIFI）和基于CNN的跨尺度特征融合模块（CCFM）。这种创新的结构设计使得RT-DETR能够在维持高精度的同时，显著提升处理速度。

IoU-aware查询选择

另一个关键的创新是IoU-aware查询选择机制。这一机制能够在训练期间对高IoU的特征产生高分类分数，对低IoU的特征产生低分类分数，从而优化模型的检测性能。这种方法改进了传统DETR中的查询选择方式，提高了预测框的准确性。

RT-DETR的实际应用

性能评估

在性能方面，RT-DETR展示了卓越的结果。例如，RT-DETR-L在COCO val2017数据集上达到了53.0%的AP（平均精度），同时在T4 GPU上实现了114 FPS（每秒帧数），这证明了其在实时目标检测领域的强大性能【8†source】。

代码和使用案例

RT-DETR的官方GitHub项目提供了详细的代码和使用说明，方便研究人员和开发者进行实验和应用。这个项目不仅包括代码实现，还有关于如何使用和调整RT-DETR模型的详细指南【5†source】。

不同模型性能对比

Model	Epoch	Input shape	Dataset	AP^val	AP^val_50	Params(M)	FLOPs(G)	T4 TensorRT FP16(FPS)
RT-DETR-R18	6x	640	COCO	46.5	63.8	20	60	217
RT-DETR-R34	6x	640	COCO	48.9	66.8	31	92	161
RT-DETR-R50-m	6x	640	COCO	51.3	69.6	36	100	145
RT-DETR-R50	6x	640	COCO	53.1	71.3	42	136	108
RT-DETR-R101	6x	640	COCO	54.3	72.7	76	259	74
RT-DETR-HGNetv2-L	6x	640	COCO	53.0	71.6	32	110	114
RT-DETR-HGNetv2-X	6x	640	COCO	54.8	73.1	67	234	74
RT-DETR-R18	5x	640	COCO + Objects365	49.2	66.6	20	60	217
RT-DETR-R50	2x	640	COCO + Objects365	55.3	73.4	42	136	108
RT-DETR-R101	2x	640	COCO + Objects365	56.2	74.6	76	259	74