【YOLOv8改进-SPPF】 AIFI : 基于注意力的尺度内特征交互，保持高准确度的同时减少计算成本

最新推荐文章于 2025-05-01 18:19:05 发布

YOLO大师

最新推荐文章于 2025-05-01 18:19:05 发布

阅读量1.5k

点赞数 39

分类专栏： YOLOV8基础解析+创新改进+实战案例文章标签： YOLO 交互目标跟踪目标检测 yolov8

原创文章，禁止任何形式转载！

本文链接：https://blog.csdn.net/shangyanaf/article/details/140500654

版权

YOLOV8基础解析+创新改进+实战案例专栏收录该内容

163 篇文章 ¥99.90 ¥299.90

订阅专栏

YOLOv8目标检测创新改进与实战案例专栏

专栏目录： YOLOv8有效改进系列及项目实战目录包含卷积，主干注意力，检测头等创新机制以及各种目标检测分割项目实战案例

专栏链接: YOLOv8基础解析+创新改进+实战案例

介绍

摘要

YOLO系列因其在速度和准确性之间的合理权衡，成为了实时目标检测中最受欢迎的框架。然而，我们观察到YOLO的速度和准确性受NMS（非极大值抑制）的负面影响。最近，基于Transformer的端到端检测器（DETRs）提供了一种消除NMS的替代方案，但其高计算成本限制了其实用性，并阻碍了其完全利用排除NMS的优势。在本文中，我们提出了实时检测Transformer（RT-DETR），据我们所知，这是第一个解决上述困境的实时端到端目标检测器。我们借鉴先进的DETR，分两步构建RT-DETR：首先，我们专注于在提高速度的同时保持准确性，然后在保持速度的同时提高准确性。具体而言，我们设计了一种高效的混合编码器，通过解耦内尺度交互和跨尺度融合来快速处理多尺度特征，从而提高速度。然后，我们提出了不确定性最小化查询选择，以向解码器提供高质量的初始查询，从而提高准确性。此外，RT-DETR通过调整解码器层数支持灵活的速度调节，以适应各种场景，而无需重新训练。我们的RT-DETR-R50/R101在COCO数据集上分别达到了53.1%和54.3%的AP，并在T4 GPU上达到了108 FPS和74 FPS，超越了之前先进的YOLOs在速度和准确性上的表现。此外，RT-DETR-R50在准确性上比DINO-R50高2.2% AP，且FPS高约21倍。经过Objects365的预训练后，RT-DETR-R50/R101分别达到了55.3%和56.2%的AP。项目页面：https://zhao-yian.github.io/RTDETR。