学习经验分享【39】YOLOv12——2025 年 2 月 19 日发布的以注意力为核心的实时目标检测器

      YOLO算法更新速度很快,已经出到V12版本,后续大家有想发论文或者搞项目可更新自己的baseline了。

代码:GitHub - sunsmarterjie/yolov12: YOLOv12: Attention-Centric Real-Time Object Detectors

摘要:长期以来,增强 YOLO 框架的网络架构一直至关重要,但尽管注意力机制在建模能力方面已被证明具有优越性,此前的改进却一直集中在基于卷积神经网络(CNN)的方面。这是因为基于注意力机制的模型在速度上无法与基于 CNN 的模型相媲美。本文提出了一个以注意力机制为核心的 YOLO 框架,即 YOLOv12,它在利用注意力机制性能优势的同时,能够达到与之前基于 CNN 的模型相当的速度。YOLOv12 在精度上超越了所有流行的实时目标检测器,并且速度也极具竞争力。例如,YOLOv12-N 在 T4 GPU 上实现了 40.6% 的平均精度均值(mAP),推理延迟为 1.64 毫秒,在速度相当的情况下,其 mAP 比先进的 YOLOv10-N/YOLOv11-N 高出 2.1%/1.2%。这一优势也延伸到了其他模型规模。YOLOv12 还超越了改进自 DETR 的端到端实时检测器,如 RT-DETR/RT-DETRv2:YOLOv12-S 击败了 RT-DETR-R18/RT-DETRv2-R18,同时运行速度快 42%,仅使用了 36% 的计算量和 45% 的参数。

1 核心技术

  • 区域注意力(Area Attention):将图像分割为多个区域,默认纵向 / 横向 4 份,仅对区域间进行注意力计算。使计算量从²降至,计算成本减半,保持大视野的同时精度损失微小。
  • 残差高效层聚合网络(R-ELAN):引入残差连接和分层聚合设计,跨层传递特征增强信息流通,减少中间模块降低计算开销,加速梯度流动并稳定训练。
  • 架构优化:取消最后阶段的三层堆叠改为单层 R-ELAN;用轻量级卷积替代全连接层;移除位置编码;调整 MLP 比例从 4:1 降至 1.2:1;引入 FlashAttention 解决注意力的内存访问问题,还引入大卷积核(7×7 卷积)增强位置感知能力。
2 性能优势 
  • 精度更高:在 COCO 数据集上,YOLOv12-N 在 T4 GPU 上实现了 40.6% 的平均精度(mAP),比 YOLOv11-N 高出 1.2% 的 mAP;YOLOv12-S 的 mAP 也高于 RT-DETR-R18 等模型。
  • 速度相当或更快:YOLOv12-N 推理延迟为 1.64 毫秒,与 YOLOv11-N 速度相当;YOLOv12-S 比 RT-DETR-R18 快 42%。
  • 资源占用少:YOLOv12-S 仅使用了 RT-DETR-R18 36% 的计算量和 45% 的参数;大模型如 YOLOv12-L/X 超越 RT-DETR 系列,参数量减少 37%-55%。
3 应用领域

YOLOv12 作为 YOLO 系列的最新版本,继承了 YOLO 系列的高效和快速,理论上可应用于 YOLO 算法的常见领域:

  • 自动驾驶:用于实时检测道路上的行人、车辆、交通标志等,帮助自动驾驶系统做出安全驾驶决策。
  • 视频监控:用于智能视频监控系统,检测公共场所中的可疑人员、丢失物品或暴力事件等,实现异常行为检测和预警。
  • 机器人视觉:帮助机器人更准确地识别和理解周围环境中的物体,对机器人导航、抓取和操作等任务至关重要。
  • 农业自动化:可由农业无人机或地面机器人携带摄像头拍摄农田图像,用于检测农作物病虫害,帮助农民及时发现并采取措施减少损失。
  • 医疗影像分析:可探索用于某些医疗影像分析场景,如肺结节检测等,检测并标记出潜在的病灶区域。
  • 精度更高:在 COCO 数据集上,YOLOv12-N 在 T4 GPU 上实现了 40.6% 的平均精度(mAP),比 YOLOv11-N 高出 1.2% 的 mAP;YOLOv12-S 的 mAP 也高于 RT-DETR-R18 等模型。
  • 速度相当或更快:YOLOv12-N 推理延迟为 1.64 毫秒,与 YOLOv11-N 速度相当;YOLOv12-S 比 RT-DETR-R18 快 42%。
  • 资源占用少:YOLOv12-S 仅使用了 RT-DETR-R18 36% 的计算量和 45% 的参数;大模型如 YOLOv12-L/X 超越 RT-DETR 系列,参数量减少 37%-55%。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

人工智能算法研究院

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值