杀疯啦！yolov12+deepsort的目标跟踪实现

QTreeY123

已于 2025-02-24 23:38:44 修改

阅读量1.3k

点赞数 33

文章标签： YOLO 目标跟踪人工智能目标检测计算机视觉

于 2025-02-24 23:37:17 首次发布

本文链接：https://blog.csdn.net/m0_56175815/article/details/145840896

版权

介绍

在研究了YOLOv8、YOLOv9、YOLOv10甚至YOLOv11之后，我们很高兴地推出 YOLO 系列的最新版本：YOLOv12！这个新版本采用了以注意力为中心的架构，改变了实时对象检测的方式。它还为准确性和效率树立了新标准。

由于注意力机制效率低下，大多数对象检测架构传统上都依赖于卷积神经网络 (CNN)，注意力机制需要应对二次计算复杂度和低效的内存访问操作。因此，在 YOLO 框架中，基于 CNN 的模型通常优于基于注意力的系统，因为高推理速度至关重要。

YOLOv12试图通过三项关键改进来克服这些限制：

区域注意模块（A2）：

YOLOv12 引入了简单高效的区域注意力模块（A2），将特征图分割成多个片段，以保留较大的感受野，同时降低传统注意力机制的计算复杂度。这一简单的修改使模型在提高速度和效率的同时，保留了较大的视野。

残差高效层聚合网络（R-ELAN）：

YOLOv12 利用R-ELAN解决注意力机制带来的优化挑战。R-ELAN 在之前的ELAN架构基础上进行了改进，具体如下：
- 块级残差连接和缩放技术，确保稳定的训练。
- 重新设计的特征聚合方法，可提高性能和效率。

建筑改进：

YOLOv12 框架。如上一节所述，我们现在将详细说明三个关键改进，即区域注意模块、残差高效层聚合网络 (R-ELAN) 模块和原始注意机制的改进。

ELAN 概述：

早期的 YOLO 模型中使用了高效层聚合网络 (ELAN)来改进特征聚合。ELAN 的工作原理如下：

ELAN 的问题：

建议的解决方案——R-ELAN：

新的聚合方法：

FlashAttention：YOLOv12 利用 FlashAttention，最大限度地减少内存访问开销。这解决了注意力机制的主要内存瓶颈，缩小了与 CNN 的速度差距。
MLP 比例调整：前馈网络扩展比例从 Transformers 中常见的 4 降低到 YOLOv12 中的 1.2 左右，避免 MLP 独霸运行时间，从而提高整体效率。
删除位置编码：YOLOv12 在其注意层中省略了显式位置编码。这使得模型“快速而干净”，并且检测性能没有任何损失。
减少堆叠块：最近的 YOLO 主干在最后阶段堆叠了三个注意力/CNN 块；而 YOLOv12 在该阶段仅使用单个 R-ELAN 块。较少的连续块可简化优化并提高推理速度，尤其是在更深的模型中。
卷积运算符：该架构还使用具有批量规范的卷积而不是具有层规范的线性层，以充分利用卷积运算符的效率。