YOLO目标检测创新改进与实战案例专栏
专栏目录: YOLO有效改进系列及项目实战目录 包含卷积,主干 注意力,检测头等创新机制 以及 各种目标检测分割项目实战案例
专栏链接: YOLO基础解析+创新改进+实战案例
介绍
摘要
YOLO 系列因其在速度和准确性之间的合理平衡,已成为实时目标检测中最受欢迎的框架。然而,我们观察到 YOLO 的速度和准确性受到非极大值抑制(NMS)的负面影响。最近,基于 Transformer 的端到端检测器(DETRs)提供了一种替代方案来消除 NMS。然而,高计算成本限制了它们的实用性,并阻碍了它们充分利用不使用 NMS 的优势。在本文中,我们提出了实时检测 Transformer(RT-DETR),据我们所知,这是第一个解决上述困境的实时端到端目标检测器。我们在构建 RT-DETR 时分两步进行,借鉴了先进的 DETR:首先我们专注于在提高速度的同时保持准确性,然后在保持速度的同时提高准确性。具体而言,我们设计了一个高效的混合编码器,通过解耦尺度内交互和跨尺度融合来快速处理多尺度特征,以提高速度。然后,我们提出了不确定性最小化查询选择,为解码器提供高质量的初始查询,从而提高准确性。此外,RT-DETR 通过调整解码器层的数量来适应各种场景,而无需重新训练,从而支持灵活的速度调整。我们的 RT-DETR-R50 / R101 在 COCO 数据集上实现了 53.1% / 54.3% 的 AP 和在 T4 GPU 上 108 / 74 FPS, 在速度和准确性上都优于先前的先进 YOLOs。此外,RT-DETR-R50 在准确性上比 DINO-R50 高出 2.2% AP,FPS 高出约 21 倍。经过 Objects365 的预训练后,RT-DETR-R50 / R101 达到了 55.3% / 56.2% 的 AP。项目页面:https://zhao-yian.github.io/RTDETR。
文章链接
论文地址:论文地址
代码地址:代码地址
基本原理
RT-DETR是一种实时端到端目标检测器,旨在解决传统目标检测器中非极大值抑制(NMS)所带来的速度和准确性之间的平衡问题。RT-DETR采用了Transformer-based的结构,通过两个关键的增强步骤来构建:一是设计了高效的混合编码器,以加快多尺度特征的处理速度;二是提出了最小化不确定性的查询选择方法,以提高解码器的初始查询质量。此外,RT-DETR支持灵活的速度调整,通过调整解码器层数而无需重新训练&#