【详细版】DETR系列之RT-DETR（2024 CVPR）

最新推荐文章于 2025-03-14 11:57:09 发布

刘若里

最新推荐文章于 2025-03-14 11:57:09 发布

阅读量2.6k

点赞数 69

分类专栏：论文阅读文章标签：人工智能计算机视觉学习网络笔记

本文链接：https://blog.csdn.net/Liuruoli4878/article/details/146040279

版权

论文标题	DETRs Beat YOLOs on Real-time Object Detection
论文作者	Wenyu Lv, Yian Zhao, Shangliang Xu, Jinman Wei, Guanzhong Wang, Cheng Cui, Yuning Du, Qingqing Dang, Yi Liu
发表日期	2024年04月03日
GB引用	> Zhao Yian, Lv Wenyu, Xu Shangliang, et al. DETRs Beat YOLOs on Real-time Object Detection[J]. Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition, 2024: 16965-16974.
DOI	10.1109/CVPR52733.2024.01605

论文地址：https://arxiv.org/pdf/2304.08069

摘要

本文提出了一种名为RT-DETR的实时端到端目标检测器，解决了现有实时检测器在速度和精度上的问题。RT-DETR通过设计高效的混合编码器处理多尺度特征，并引入IoU感知查询选择来提高性能。实验结果显示，RT-DETR-L在COCO验证集上达到53.0%的平均精度(AP)，并在T4 GPU上达到114帧每秒(FPS)，而RT-DETR-X则达到54.8% AP和74 FPS，优于当前最先进的YOLO检测器。此外，RT-DETR-R50在精度和FPS方面也显著超越了其他同类检测器。

全文摘要

本论文提出了一种新型的实时目标检测框架——实时检测变换器（RT-DETR），解决了现有YOLO系列和其他目标检测器在速度与精度之间的权衡问题。YOLO系列检测器因其合理的速度与精度平衡而广受欢迎，但在后处理阶段需要使用非极大值抑制（NMS），这不仅降低了推理速度，还引入了不稳定性。此外，近期基于变换器的目标检测器（DETRs）虽然消除了NMS，但其高计算成本使得在实时检测中的实际应用受到限制。

RT-DETR的独特之处在于其通过以下两方面的创新，首次实现了实时的端到端目标检测：

高效混合编码器：论文中设计的编码器能够有效处理多尺度特征，通过解耦内部尺度交互与跨尺度融合来显著提高速度。
最小不确定性查询选择：提出了一种不确定性最小化的查询选择策略，确保初始查询的高质量，从而提升检测精度。

实验结果显示，RT-DETR在COCO数据集上达到了53.1%的AP（平均精度）和108 FPS（每秒帧数），在速度与精度上均优于先前的YOLO检测器。此外，经过Objects365数据集的预训练后，RT-DETR的性能进一步得到提升，显示出其在多种实时场景下的适应性。

研究问题

如何设计一个高效的实时端到端目标检测器，以同时提高准确性和速度，并避免使用非最大抑制（NMS）带来的延迟？

研究方法

实验研究： 本文通过设计高效的混合编码器和提出IoU感知查询选择，优化了实时端到端目标检测器RT-DETR的性能，并在多个实验中验证了其在速度和精度方面的优越性。

比较研究： RT-DETR与当前最先进的YOLO探测器进行了比较，结果显示RT-DETR在速度和精度上均优于同类规模的YOLO探测器。例如，RT-DETR-L在COCO val2017数据集上的AP为53.0%，FPS为114；而RT-DETR-X的AP为54.8%，FPS为74。

混合方法研究： 本文结合了多种技术来实现RT-DETR，包括使用不同的骨干网络（如ResNet和HGNetv2）、多尺度特征处理以及引入IoU感知查询选择等，从而实现了在不同应用场景下的灵活调整。

研究思路

这篇论文提出了一种新的实时目标检测器，称为RT-DETR，通过将变换器（Transformer）模型与传统目标检测方法结合，解决了快速目标检测中常见的一些问题。以下是论文的研究思路的详细描述，包括理论框架、研究方法和创新点。

RT-DETR的理论基础主要依赖于变换器（Transformer）架构，尤其是近年来兴起的DETR（End-to-End Object Detection with Transformers）模型。与传统的卷积神经网络（CNN）模型（如YOLO）相比，RT-DETR通过使用变换器消除了手工设计的组件，特别是非最大抑制（NMS）后处理步骤。这样，RT-DETR能够直接预测目标的位置和类别，从而提高检测的效率和准确性。

研究方法

高效混合编码器设计：RT-DETR采用高效混合编码器，该编码器通过解耦内部尺度交互和跨尺度特征融合来加速多尺度特征的处理。具体来说，内部尺度交互只发生在高级特征上，而低级特征不进行此操作，从而减少计算冗余和提升效率。
不确定性最小化查询选择：为了提高解码器初始查询的质量，RT-DETR提出了一种不确定性最小化的查询选择方案。该方案通过优化查询特征的分类和定位的不确定性，确保选择到高质量的初始查询，这样能够提升检测性能。
灵活的速度调整：RT-DETR支持灵活的速度调整，通过直接修改解码器层的数量来适应不同的实时需求，而无需重新训练模型。这一特性使得RT-DETR在不同场景下的应用更加灵活。
全面的性能评估：论文中，RT-DETR在COCO数据集上的表现被详细评估，相对于YOLO系列和其他前沿目标检测器，在速度和准确性上均有显著提升。

NMS分析

NMS 是目标检测中广泛使用的一种后处理算法，用于消除重叠输出框。NMS 需要两个阈值：置信度阈值和 IoU 阈值。具体来说，分数低于置信度阈值的框直接被过滤掉，当任意两个框的 IoU 超过 IoU 阈值时，分数较低的框将被丢弃。该过程迭代进行，直到每个类别的所有框都被处理。因此，NMS 的执行时间主要取决于盒子的数量和两个阈值。为了验证这一观察结果，我们利用基于锚点的 YOLOv5 [11] 和无锚点的 YOLOv8 [12] 进行分析。

我们首先计算在输入中使用不同置信度阈值过滤输出框后剩余的箱子数量。我们在从0.001到0.25的范围内对两个检测器的剩余框数进行抽样，以置信度阈值为横坐标，剩余框数为纵坐标，在柱状图上绘制出来，直观地反映出NMS 对其超参数敏感，见图2。随着置信度阈值的增加，被滤除的预测框也越来越多，需要计算IoU的剩余框的数量也会减少，从而降低了NMS的执行时间。

此外，我们使用YOLOv8评估COCO val2017上的准确率，并测试在不同的超参数下NMS 操作的执行时间。请注意，我们采用的 NMS 操作是指 TensorRT 中的 efficientNMSPlugin，它包括多个内核，如 EfficientNMSFilter、RadixSort、EfficientNMS 等等，这里仅报告 EfficientNMS 内核的执行时间。我们在 T4 GPU 上使用 TensorRT FP16 测试速度，并且输入和预处理保持一致。超参数及其对应的结果请参见表 1。从结果来看，我们可以得出结论：EfficientNMS 内核的执行时间随着置信阈值的降低或 IoU 阈值的增加而增加。这是因为高置信阈值会直接过滤掉更多的预测框，而在每个筛选轮次中，高 IoU 阈值会过滤掉更少的预测框。我们在附录中可视化了不同 NMS 阈值下的 YOLOv8 预测。结果显示，不恰当的置信度阈值会导致探测器产生显著的假阳性或假阴性。当置信度阈值为 0.001 和 IoU 阈值为 0.7 时，YOLOv8 取得了最佳的平均精度 (AP)，但相应的 NMS 时间较长。考虑到 YOLO 探测器通常报告模型速度并排除 NMS 时间，因此需要建立端到端的速度基准。

端到端速度基准测试

为了能够公平地比较各种实时检测器的端到端速度，我们建立了一个端到端速度基准。考虑到NMS 的执行时间受输入影响，有必要选择一个基准数据集，并在多张图片上计算平均执行时间。我们选择了COCOval2017 [20] 作为基准数据集，并添加了如上所述的针对YOLO 检测器的TensorRT NMS 后处理插件。具体来说，我们在基准数据集上根据相应的准确率NMS门限测试检测器的平均推理时间，不包括I/O 和内存拷贝操作。我们使用该基准在带有 TensorRT FP16 的 T4 GPU 上来测试基于锚点的检测器YOLOv5 [11] 和YOLOv7 [38]，以及基于锚点自由检测器PP-YOLOE [40]、YOLOv6 [16] 和YOLOv8 [12] 的端到端速度。根据结果（参见表 2），我们得出结论，对于 YOLO 检测器来说，基于锚点的检测器与具有相同准确性的无锚点检测器相比表现较差，因为前者比后者需要更少的 NMS 时间。原因是基于锚点的检测器产生的预测框比无锚点检测器多（在我们的测试中多出三倍）。

Real-time DETR

RT-DETR由骨干网络、高效的混合编码器和带辅助预测头的变压器解码器组成。 RT-DETR 的概述如图 4 所示。具体来说，我们将骨干网络的最后三个阶段的特征输入到编码器中。有效的混合编码器通过跨尺度特征交互和融合将多尺度特征转换为图像特征序列（参见第 4.2 节）。然后，使用不确定性最小化查询选择来选择固定数量的编码器特征作为解码器的初始对象查询（参见第 4.3 节）。最后，带辅助预测头的解码器迭代地优化对象查询以生成类别和框。

Efficient Hybrid Encoder

计算瓶颈分析。多尺度特征的引入加速了训练收敛并提高了性能[45]。然而，尽管可变形注意力减少了计算成本，但序列长度急剧增加仍然导致编码器成为计算瓶颈。根据Lin等人报道[19]，在Deformable-DETR中，编码器占用了49%的浮点运算次数GFLOPS，但仅贡献了11%的平均精度AP。为了克服这个瓶颈，我们首先分析了多尺度Transformer编码器中的计算冗余。直观地说，从低级特征中提取出包含有关对象丰富语义信息的高级特征，因此对连接的多尺度特征进行特征交互变得多余。因此，我们设计了一组具有不同类型编码器的变体来证明同时进行的尺度内和跨尺度特征交互是低效的，如图 3 所示，在 RT-DETR 中使用的较小尺寸的数据读取器和较轻的解码器中使用 DINO-Deformable-R50 进行实验。首先，我们从 DINO-Deformable-R50 中删除了多尺度 Transformer 编码器作为变体 A。然后，插入不同类型的编码器以产生一系列基于 A 的变体，如下所示（每个变体的详细指标请参见表 3）：

• A→B：变体B在A中插入了一个单尺度变换器编码器，它使用一个变换块层。多尺度特征共享编码器进行内尺度特征交互，然后连接输出。

• B→C：变体 C 基于 B 引入了跨尺度特征融合，并将连接后的特征输入到多尺度 Transformer 编码器中，以实现同时进行的单尺度内交互和跨尺度交互。

• C → D：变体D使用单尺度Transformer编码器进行前者的内尺度交互和跨尺度融合，并使用PANet风格[22]结构进行后者。

• D → E：E 模型在 D 的基础上增强尺度内交互和跨尺度融合，采用我们设计的高效混合编码器。

混合设计。在上述分析的基础上，我们重新考虑了编码器的结构，并提出了一个高效的混合编码器，由两个模块组成：基于注意力机制的同尺度特征交互（AIFI）和基于卷积神经网络的跨尺度特征融合（CCFF）。具体来说，AIFI 通过仅在单尺度Transformer 编码器中对 $\mathcal{S}_{5}$ 进行同尺度交互来进一步降低计算成本。这是因为将具有更丰富语义概念的高层特征应用于自注意操作可以捕捉到概念实体之间的连接，从而有利于后续模块对对象进行定位和识别。然而，由于缺乏语义概念以及与高层特征交互的潜在重复和混淆风险，低层特征的同尺度交互是没有必要的。为了验证这一观点，我们在变体 D 中仅对 $\mathcal{S}_{5}$ 进行了尺度内交互，实验结果见表3（参见行 $\mathrm{D}_{\mathcal{S}_{5}}$