YOLOv12强势来袭！打破CNN主导，实现速度精度新高度，实时目标检测的效率之王！

Coovally AI模型快速验证

已于 2025-02-21 15:20:12 修改

阅读量2k

点赞数 24

文章标签： YOLO 目标检测算法人工智能计算机视觉 yolo12 深度学习

于 2025-02-20 16:52:30 首次发布

本文链接：https://blog.csdn.net/CooVally_AI/article/details/145757268

版权

四、Coovally AI模型训练与应用平台

大家好，今天要给大家介绍的是最新发布的目标检测模型——YOLOv12。相信关注计算机视觉和深度学习的小伙伴们都已经听说过YOLO系列，作为目标检测领域的“老牌明星”，YOLO每次更新都会带来不少惊喜。那么，新鲜出炉的YOLOv12，它到底有哪些亮点呢？今天，就让我们一起来深入了解一下！

一、YOLOv12论文信息

图片1.png

论文题目：YOLOv12: Attention-Centric Real-Time Object Detectors

论文链接：https://arxiv.org/abs/2502.12524

代码链接：https://github.com/sunsmarterjie/yolov12

二、YOLOv12性能突破

YOLOv12共包含了5种规模：YOLOv12-N、S、M、L和X。

YOLOv12在准确率和速度上超越了所有流行的实时物体检测器。例如，YOLOv12-N在T4 GPU上的推理延迟为1.64ms，达到40.6%的mAP，比先进的YOLOv10-N/YOLOv11-N高出2.1%/1.2%的mAP，而速度相当。这一优势在其他规模的模型中同样保持一致。YOLOv12还超越了改进DETR的端到端实时检测器，如RT-DETR/RT-DETRv2：YOLOv12-S比RT-DETR-R18/RT-DETRv2-R18快42%，仅使用36%的计算和45%的参数。

三、YOLOv12：技术创新和突破

YOLOv12是YOLO系列的最新版本，它继承了YOLO系列的高效和快速，并在此基础上做出了很多技术创新和优化。

区域注意力模块

为了克服传统自注意力机制计算复杂度高的问题，YOLOv12通过创新的区域注意力模块（Area Attention，A2），分辨率为(H, W)的特征图被划分为l个大小为(H/l, W)或(H, W/l)的段。这消除了显式的窗口划分，仅需要简单的重塑操作，从而实现更快的速度。将l的默认值设置为4，将感受野减小到原来的1/4，但仍保持较大的感受野。采用这种方法，注意力机制的计算成本从2n²hd降低到1/2n²hd。尽管存在n²的复杂度，但当n固定为640时（如果输入分辨率增加，则n会增加），这仍然足够高效，可以满足YOLO系统的实时要求。A2降低了注意力机制的计算成本，同时保持较大的感受野，显著提升了检测精度。

残差高效层聚合网络（R-ELAN）

针对传统ELAN（高效层聚合网络）在优化过程中的不稳定性问题，YOLOv12引入了R-ELAN，在整个块中从输入到输出引入了一个具有缩放因子（默认为0.01）的残差捷径。通过新的聚合方法，使用一个过渡层来调整通道维度，并生成一个单一的特征图。然后，该特征图通过后续块进行处理，接着进行连接，形成一个瓶颈结构。使得网络在处理大规模模型时能够更加稳定和高效，还降低了计算成本和参数/内存使用量。

架构优化

引入FlashAttention来解决注意力的内存访问问题，减少了内存读写延迟，提高了计算效率。调整MLP比率，进一步提升了速度和精度，去除了位置编码，并引入了大卷积核（7×7卷积），有效增强了网络对位置的感知能力，同时保持了计算效率。

综上所述，YOLOv12的贡献有两方面：

建立了一个以注意力机制为中心，简洁高效的YOLO框架，通过方法创新和架构改进，打破了YOLO系列中CNN模型的主导地位。
YOLOv12无需依赖预训练等额外技术，就能以更快的推理速度和更高的检测准确率取得最佳效果，展现出其巨大的潜力。

四、Coovally AI模型训练与应用平台

你想第一时间使用YOLOv12模型吗？Coovally平台满足你的要求！

Coovally平台整合了国内外开源社区1000+模型算法和各类公开识别数据集，无论是最新的YOLOv12模型还是Transformer系列视觉模型算法，平台全部包含，均可一键下载助力实验研究与产业应用。

在Coovally平台上，无需配置环境、修改配置文件等繁琐操作，可一键另存为我的模型，上传数据集，即可使用YOLO、Faster RCNN等热门模型进行训练与结果预测，全程高速零代码！而且模型还可分享与下载，满足你的实验研究与产业应用。

五、YOLOv12实验比较

在COCO上的详细性能

与其他实时监测器的性能比较

YOLOv12-N：在推理延迟为1.64毫秒时，mAP达到了40.6%，较YOLOv11提高了1.2%，推理速度也更快。

YOLOv12-S：相较于RT-DETR-R18/RT-DETRv2-R18，YOLOv12-S实现了38.6%的推理速度提升，且mAP较其高出1.5%/1.1%。与此同时，YOLOv12-S仅使用了36%的计算量和45%的参数数量。

YOLOv12-X：对于大型模型，YOLOv12-X在更复杂的任务中依然展现出优异的性能，并能高效处理大规模数据。

消融实验

区域注意力模块：进行了消融实验来验证区域注意的有效性，评估是在 YOLOv12-N/S/X模型上进行的，测量了GPU（CUDA）和CPU上的推理速度。在RTX 3080上使用FP32，YOLOv12-N实现了减少0.7ms推理时间。这种性能提升在不同的模型和硬件配置中都得到了一致的体现。

R-ELAN：使用YOLOv12-N/L/X模型评估了所提出的残差高效层网络(R-ELAN)的有效性。对于像YOLOv12-N这样的小模型，残差连接不会影响收敛，但会降低性能。相反，对于较大的模型(YOLOv12-L/X)，它们对于稳定的训练至关重要。特别是，YOLOv12-X需要最小缩放因子(0.01)以确保收敛。特征集成方法有效地降低了模型在FLOP和参数方面的复杂性，同时保持了可比的性能，仅有轻微的下降。

速度比较

对不同GPU的推理速度进行了比较分析，评估了YOLOv9、YOLOv10、YOLOv11以及在RTX 3080、RTX A5000和RTX A6000上以FP32和FP16精度进行的YOLOv12。在RTX 3080上，YOLOv9报告2.4毫秒(FP32)和1.5毫秒(FP16)，而YOLOv12-N实现了1.7毫秒(FP32)和1.1ms(FP16)。其他配置也存在类似的趋势。

诊断与可视化

YOLOv12通过优化注意力机制、分层设计、训练周期、位置感知和区域关注等多方面创新，提升了工件检测的性能和计算效率。

可视化分析热图分析显示，YOLOv12相比YOLOv10和YOLOv11在物体作用和前景激活上更清晰，表明区域注意在感知能力上的提升，使YOLOv12在性能上具备优势。

六、YOLOv12局限性

YOLOv12 目前的局限性在于它依赖FlashAttention来实现最佳速度。FlashAttention 仅支持相对较新的 GPU 架构（NVIDIA Turing、Ampere、Ada Lovelace 或 Hopper 系列），例如 Tesla T4、RTX 20/30/40 系列、A100、H100 等。
这意味着缺乏这些架构的旧 GPU 无法充分受益于 YOLOv12 优化的注意力实现。使用不受支持的硬件的用户将不得不回退到标准注意力内核，从而失去一些速度优势。
目前，作者尚未尝试将 YOLOv12 用于其他任务，例如姿势估计和实例分割。不过，作者可能会在未来提供相关结果。