YOLOv12: Attention-Centric Real-Time Object Detectors
YOLOv12:以注意力为中心的实时对象检测器
YOLOv12论文最新中文解析
论文地址:https://arxiv.org/abs/2502.12524
代码地址:https://github.com/sunsmarterjie/yolov12
文章目录
一、研究背景
实时目标检测因低延迟特性在众多领域应用广泛,YOLO系列在该领域占据主导地位,其通过不断改进网络架构、损失函数、标签分配等方面,在延迟和精度之间取得了较好平衡。然而,尽管注意力机制在建模能力上表现出色,在小模型中也展现出强大性能,但在YOLO系统中,大多数架构设计仍以卷积神经网络(CNN)为主。
这主要是因为注意力机制存在效率问题:一方面,其计算复杂度与输入序列长度L的平方成正比,对于高分辨率图像等大输入,计算量巨大。以输入序列长度为L、特征维度为d的情况为例,计算注意力矩阵需要 O ( L 2 d ) O(L^{2}d) O(L2d)次操作,而CNN中卷积操作的复杂度与空间或时间维度呈线性关系,即 O ( k L d ) O(kLd) O(kLd),其中卷积核大小k通常远小于L。另一方面,注意力计算过程中的内存访问模式效率低于CNN,如在自注意力计算时,中间映射(如注意力图 ( Q K T ) (QK^{T}) (QKT)和softmax图 ( L × L ) (L×L) (L×L))需在高速GPU SRAM和高带宽GPU内存(HBM)之间存储和读取,且前者读写速度比后者快10倍以上,导致显著的内存访问开销和时间增加,同时不规则的内存访问模式也增加了延迟,而CNN因结构化和局部化的内存访问以及固定的感受野和滑动窗口操作,能实现高效的内存缓存,降低延迟。这些因素限制了注意力机制在YOLO系统中的应用。
本文旨在突破这些限制,构建以注意力为核心的YOLO框架——YOLOv12,通过创新方法和架构改进,打破CNN模型在YOLO系列中的主导地位,实现具有快速推理速度和更高检测精度的实时目标检测。
二、相关工作
2.1 实时目标检测器
实时目标检测器具有重要实用价值,吸引了众多研究关注。YOLO系列是实时目标检测的领先框架,早期YOLO系统从模型设计角度奠定了基础;YOLOv4和YOLOv5加入CSPNet、数据增强和多特征尺度;YOLOv6通过BiC和SimCSPSPPF模块改进骨干网络和颈部,并采用锚辅助训练;YOLOv7引入EELAN改善梯度流并使用多种免费技巧;YOLOv8集成高效C2f块增强特征提取;YOLOv9进行架构优化和训练改进;YOLOv10应用无NMS训练和双重分配提高效率;YOLOv11采用C3K2模块和轻量级深度可分离卷积减少延迟、提高精度。此外,RT - DETR通过设计高效编码器和不确定性最小化查询选择机制改进传统端到端检测器以满足实时需求,RT - DETRv2进一步增强性能。与以往YOLO系列不同,本研究围绕注意力构建YOLO框架,以利用注意力机制的优势。
2.2 高效视觉Transformer
为有效将视觉Transformer应用于下游任务,降低全局自注意力的计算成本至关重要。PVT通过多分辨率阶段和下采样特征解决这一问题;Swin Transformer将自注意力限制在局部窗口并调整窗口划分方式连接非重叠窗口,平衡通信需求与内存和计算要求;轴向自注意力和十字交叉注意力分别在水平和垂直窗口内计算注意力;CSWin transformer在此基础上引入十字形窗口自注意力,沿水平和垂直条纹并行计算注意力;还有研究建立局部 - 全局关系,减少对全局自注意力的依赖以提高效率;Fast - iTPN通过令牌迁移和令牌聚集机制提高下游任务推理速度;部分方法使用线性注意力降低注意力复杂度;Mamba基视觉模型虽追求线性复杂度,但仍未达到实时速度。FlashAttention通过I/O优化解决高带宽内存瓶颈导致的注意力计算效率低下问题,减少内存访问,提高计算效率。本研究提出简单的区域注意力机制降低注意力复杂度,并采用FlashAttention克服注意力机制固有的内存访问问题。
三、方法
3.1 效率分析
注意力机制在捕捉全局依赖方面表现出色,但在速度上比CNN慢,主要受两个因素影响:
- 计算复杂度:自注意力操作的计算复杂度与输入序列长度L的平方成正比。对于长度为L、特征维度为d的输入序列,计算注意力矩阵需要 O ( L 2 d ) O(L^{2}d) O(L2d)次操作,因为每个令牌都要关注其他所有令牌。相比之下,CNN中卷积操作的复杂度与空间或时间维度呈线性关系,即 O ( k L d ) O(kLd) O(kLd),其中卷积核大小k通常远小于L。因此,自注意力在处理大输入时计算成本过高,尤其是高分辨率图像或长序列。此外,大多数基于注意力的视觉Transformer由于复杂设计(如Swin transformer中的窗口划分/反转)和引入额外模块(如位置编码),逐渐积累速度开销,导致整体速度比CNN架构慢。本文设计的模块采用简单干净的操作实现注意力,最大程度保证效率。
- 内存访问:在注意力计算过程中,内存访问模式的效率低于CNN。在自注意力计算时,中间映射(如注意力图 ( Q K T ) (QK^{T}) (QKT)和softmax图 ( L × L ) (L×L) (L×L))需要从高速GPU SRAM(实际计算位置)存储到高带宽GPU内存(HBM),并在后续计算中检索,而SRAM的读写速度比HBM快10倍以上,这导致显著的内存访问开销和实际运行时间增加。此外,注意力的不规则内存访问模式比CNN的结构化、局部化内存访问引入更多延迟,CNN受益于空间受限的卷积核,通过固定感受野和滑动窗口操作实现高效内存缓存,降低延迟。这两个因素使得注意力机制在实时或资源受限场景中速度较慢,解决这些限制成为关键研究方向,如稀疏注意力机制和内存高效近似方法(如Linformer或Performer)旨在减轻二次缩放问题。
3.2 区域注意力
降低普通注意力计算成本的简单方法是使用线性注意力机制,对于维度为 ( n , h , d ) (n, h, d) (n,h,d)的视觉特征f(其中n为令牌数量,h为头数,d为头大小),线性注意力将复杂度从 2 n 2 h d 2n^{2}hd 2n2hd降低到 2 n h d 2 2nhd^{2} 2nhd2,由于 n > d n>d n>d,计算成本降低。然而,线性注意力存在全局依赖退化、不稳定和分布敏感等问题,并且由于低秩瓶颈,在应用于输入分辨率为640×640的YOLO时,速度优势有限。
另一种降低复杂度的方法是局部注意力机制(如Shift window、十字交叉注意力和轴向注意力),将全局注意力转换为局部注意力,从而降低计算成本。但将特征图划分为窗口会引入额外开销或减小感受野,影响速度和精度。
本文提出简单高效的区域注意力模块,将分辨率为 ( H , W ) (H, W) (H,W)的特征图划分为l个大小为 ( H l , W ) (\frac{H}{l}, W) (lH,W)或 ( H , W l ) (H, \frac{W}{l}) (H,lW)的段(默认l = 4),这种方法无需显式窗口划分,仅需简单重塑操作,速度更快。虽然感受野减小到原来的 1 4 \frac{1}{4} 41,但仍保持较大感受野。通过这种方式,注意力机制的计算成本从 2 n 2 h d 2n^{2}hd 2n2hd降低到 1 2 n 2 h d \frac{1}{2}n^{2}hd 21n2hd。实验表明,在n固定为640(输入分辨率增加时n相应增加)的情况下,这种修改对性能影响轻微,但显著提高了速度。
3.3 残差高效层聚合网络(R - ELAN)
高效层聚合网络(ELAN)旨在改进特征聚合,它将过渡层(1×1卷积)的输出拆分,其中一部分通过多个模块处理,然后将所有输出连接起来,并应用另一个过渡层(1×1卷积)对齐维度。然而,这种架构可能引入不稳定性,原因是设计导致梯度阻塞且缺乏从输入到输出的残差连接。此外,围绕注意力机制构建网络带来了额外的优化挑战,经验表明,L和X尺度模型即使使用Adam或AdamW优化器也可能无法收敛或保持不稳定。
为解决这些问题,本文提出残差高效层聚合网络(R - ELAN)。与ELAN不同,R - ELAN在整个模块中引入从输入到输出的残差快捷连接,并带有缩放因子(默认0.01),该设计类似于层缩放,但对每个区域注意力应用层缩放无法解决优化挑战,还会增加延迟,这验证了R - ELAN设计的合理性。
R - ELAN还设计了新的聚合方法。原始ELAN层先通过过渡层处理模块输入,然后拆分为两部分,一部分经后续模块处理,最后两部分连接产生输出。而R - ELAN的设计是应用过渡层调整通道维度,生成单个特征图,再经后续模块处理后连接,形成瓶颈结构。这种方法不仅保留了原始特征集成能力,还降低了计算成本、参数和内存使用。
3.4 架构改进
本文在整体架构和普通注意力机制方面进行了多项改进:
- 保留层次设计:许多以注意力为核心的视觉Transformer采用平面风格架构,而本文保留了先前YOLO系统的层次设计,并证明了其必要性。去除骨干网络最后阶段堆叠的三个块,仅保留一个R - ELAN块,减少了总块数,有助于优化。骨干网络的前两个阶段继承自YOLOv11,未使用R - ELAN。
- 调整注意力机制配置:对普通注意力机制的多个默认配置进行修改以适配YOLO系统。将MLP比例从4调整为1.2(N/S/M尺度模型为2),以更好地分配计算资源,提高性能;采用
nn.Conv2d + BN
代替nn.Linear + LN
,充分利用卷积算子的效率;去除位置编码,并引入大的可分离卷积(7×7,即位置感知器)帮助区域注意力感知位置信息。这些修改的有效性在后续实验中得到验证。
四、实验
4.1 实验设置
在MSCOCO 2017数据集上验证所提方法。YOLOv12家族包含5个变体:YOLOv12 - N、YOLOv12 - S、YOLOv12 - M、YOLOv12 - L和YOLOv12 - X。所有模型使用SGD优化器训练600个epoch,初始学习率为0.01,与YOLOv11相同,采用线性学习率衰减策略,并在前3个epoch进行线性热身。按照相关方法,所有模型的延迟在配备TensorRT FP16的T4 GPU上测试。选择YOLOv11作为基线,模型缩放策略与之保持一致,使用其提出的C3K2块,且不使用YOLOv11之外的技巧。
4.2 与现有方法的比较
在与其他流行实时检测器的性能比较中,YOLOv12表现出色:
- N尺度模型:YOLOv12 - N在mAP上分别比YOLOv6 - 3.0 - N、YOLOv8 - N、YOLOv10 - N和YOLOv11高3.6%、3.3%、2.1%和1.2%,同时保持相似甚至更少的计算量和参数,推理延迟仅为1.64ms/image。
- S尺度模型:YOLOv12 - S的FLOPs为21.4G,参数为9.3M,mAP达到48.0,延迟为2.61ms/image。它在mAP上分别比YOLOv8 - S、YOLOv9 - S、YOLOv10 - S和YOLOv11 - S高3.0%、1.2%、1.7%和1.1%,计算量相似或更少。与端到端检测器RT - DETR - R18/RT - DETRv2R18相比,YOLOv12 - S性能更优,推理速度更快,计算成本和参数更少。
- M尺度模型:YOLOv12 - M的FLOPs为67.5G,参数为20.2M,mAP为52.5,速度为4.86ms/image。与GoldYOLO - M、YOLOv8 - M、YOLOv9 - M、YOLOv10、YOLOv11以及RT - DETR - R34/RT - DETRv2 - R34相比,具有优势。
- L尺度模型:YOLOv12 - L的FLOPs比YOLOv10 - L少31.4G,mAP比YOLOv11高0.4%,且计算量和参数相当。同时,它在速度、FLOPs(少34.6%)和参数(少37.1%)方面优于RT - DETR - R50/RT - DETRv2 - R50。
- X尺度模型:YOLOv12 - X在mAP上分别比YOLOv10 - X/YOLOv11 - X高0.8%和0.6%,速度、FLOPs和参数相当。并且在速度、FLOPs(少23.4%)和参数(少22.2%)方面优于RT - DETR - R101/RT - DETRv2 - R101。
特别地,若L/X尺度模型使用FP32精度评估(需单独以FP32格式保存模型),YOLOv12的mAP将提高约0.2%,即YOLOv12 - L/X的mAP将达到33.9%/55.4%。
4.3 消融研究
- R - ELAN:通过对YOLOv12 - N/L/X模型的实验评估R - ELAN的有效性。结果表明,对于像YOLOv12 - N这样的小模型,残差连接对收敛无影响,但会降低性能;而对于较大模型(YOLOv12 - L/X),残差连接对稳定训练至关重要,如YOLOv12 - X需要最小缩放因子0.01以确保收敛。此外,所提出的特征集成方法有效降低了模型在FLOPs和参数方面的复杂度,同时性能仅有轻微下降。
- 区域注意力:对YOLOv12 - N/S/X模型进行消融实验验证区域注意力的有效性,在GPU(CUDA)和CPU上测量推理速度。CUDA结果使用RTX 3080和A5000获得,CPU性能在Intel Core i7 - 10700K @ 3.80GHz上测量。结果表明,使用区域注意力可显著提高速度,例如在RTX 3080上以FP32运行时,YOLOv12 - N的推理时间减少0.7ms。该性能提升在不同模型和硬件配置中均一致,实验中未使用FlashAttention,以避免显著减小速度差异。
4.4 速度比较
在不同GPU(RTX 3080、RTX A5000和RTX A6000)上对YOLOv9、YOLOv10、YOLOv11和YOLOv12的推理速度进行比较,所有结果在相同硬件上获得,且YOLOv9和YOLOv10使用ultralytics的集成代码库评估,以确保一致性。结果显示,YOLOv12的推理速度明显高于YOLOv9,与YOLOv10和YOLOv11相当。例如,在RTX 3080上,YOLOv9的推理延迟为2.4ms(FP32)和1.5ms(FP16),而YOLOv12 - N为1.7ms(FP32)和1.1ms(FP16),其他配置下也呈现类似趋势。
通过精度 - 参数权衡和CPU上的精度 - 延迟权衡比较发现,YOLOv12在精度 - 参数权衡方面优于其他方法,在CPU上的推理延迟也更具优势,突出了其在不同硬件平台上的效率。
4.5 诊断与可视化
-
注意力实现方式:研究发现基于卷积的注意力实现方式比基于线性的更快,这得益于卷积的计算效率。同时探索了层归一化(LN)和批归一化(BN)两种归一化方法,结果表明虽然LN在注意力机制中常用,但与卷积结合使用时,其性能不如BN,这与PSA模块的设计一致。
-
层次设计:与其他如Mask R - CNN等使用平面视觉Transformer架构能产生良好结果的检测系统不同,YOLOv12中使用平面视觉Transformer(N/A)时,检测器性能显著下降,mAP仅为38.3%。适度调整(如省略第一阶段或第四阶段,同时通过调整特征维度保持FLOPs相似)会导致性能轻微下降(分别为0.5%和0.8% mAP)。与之前的YOLO模型一致,层次设计在YOLOv12中仍然是最有效的,性能最佳。
-
训练轮数:研究发现一些现有YOLO检测器在约500轮训练后达到最佳效果,但YOLOv12需要更长的训练时间(约600轮)才能达到峰值性能,训练配置与YOLOv11相同。
-
位置感知器:在注意力机制中,通过对注意力值应用大卷积核的可分离卷积(即位置感知器),并将其输出添加到注意力结果中,帮助注意力机制感知位置信息。实验表明,增加卷积核大小可提高性能,但会逐渐降低速度,当卷积核大小达到9×9时,速度下降明显,因此设置7×7为默认卷积核大小。
-
位置嵌入:研究常用的位置嵌入(相对位置嵌入RPE和绝对位置编码APE)对性能的影响,发现不使用任何位置嵌入时性能最佳,这使得架构更简洁,推理延迟更快。
-
区域注意力:在使用FlashAttention技术的默认情况下,区域注意力机制虽增加了计算复杂度,但导致的速度下降极小,进一步验证了区域注意力的有效性(具体可参考之前关于区域注意力的消融实验结果)。从原理上分析,区域注意力通过独特的划分方式,在保证一定感受野的同时降低了计算量,配合FlashAttention解决内存访问问题,使得整体性能得到提升。
-
MLP比例:传统视觉Transformer中,注意力模块内的MLP比例通常设为4.0。但在YOLOv12中观察到不同情况,调整MLP比例会影响模型大小,通过调整特征维度保持模型整体一致性后发现,YOLOv12在MLP比例为1.2时性能更优。这一调整将计算负载更多地转移到注意力机制上,凸显了区域注意力在模型中的重要性。从模型结构角度来看,这种调整优化了注意力机制与前馈网络之间的计算平衡,使得模型在处理目标检测任务时能够更有效地分配资源,从而提升性能。
-
FlashAttention:实验验证了FlashAttention在YOLOv12中的作用,它能使YOLOv12 - N加速约0.3ms,YOLOv12 - S加速约0.4ms,且没有其他负面影响。FlashAttention通过优化内存访问,减少了注意力计算过程中的时间开销,这对于实时性要求较高的目标检测任务至关重要,从根本上解决了注意力机制在计算过程中内存访问效率低的问题,使得YOLOv12在保持高精度的同时能够实现快速推理。
-
可视化:热图比较:通过比较YOLOv12与先进的YOLOv10和YOLOv11的热图(热图提取自X尺度模型骨干网络的第三阶段,用于突出模型激活区域,反映其目标感知能力),发现YOLOv12生成的目标轮廓更清晰,前景激活更精确。这得益于区域注意力机制,其具有比卷积网络更大的感受野,能更好地捕捉整体上下文信息,进而实现更精确的前景激活,为YOLOv12带来性能优势。从直观上展示了YOLOv12在目标感知方面的改进,有助于理解其性能提升的原因。
五、结论
本研究成功将以注意力为核心的设计引入YOLO框架,提出YOLOv12,在实时目标检测的延迟 - 精度权衡方面取得了最先进的成果。为实现高效推理,设计了新颖的网络,利用区域注意力降低计算复杂度,通过残差高效层聚合网络(R - ELAN)增强特征聚合。同时,对普通注意力机制的关键组件进行优化,使其更好地适应YOLO的实时约束,保持高速性能。通过有效结合区域注意力、R - ELAN和架构优化,YOLOv12在精度和效率上均实现了显著提升。全面的消融研究进一步验证了这些创新的有效性。该研究挑战了基于CNN的设计在YOLO系统中的主导地位,推动了注意力机制在实时目标检测中的融合,为更高效强大的YOLO系统发展开辟了道路。
六、局限性
YOLOv12依赖FlashAttention技术,而目前FlashAttention仅支持Turing、Ampere、Ada Lovelace或Hopper架构的GPU,如T4、Quadro RTX系列、RTX20系列、RTX30系列、RTX40系列、RTX A5000/6000、A30/40、A100、H100等。这限制了YOLOv12在其他类型GPU上的直接应用,对于一些硬件资源有限或使用特定GPU的用户,可能无法充分发挥YOLOv12的性能优势。未来需要进一步探索不依赖特定GPU架构的优化方法,或者推动FlashAttention技术的扩展,以支持更多类型的硬件设备,从而扩大YOLOv12的应用范围。
七、更多细节
7.1 微调细节
默认情况下,所有YOLOv12模型均使用SGD优化器训练600个epoch。遵循先前研究,SGD动量设为0.937,权重衰减设为 5 × 1 0 − 4 5×10^{-4} 5×10−4。初始学习率设为 1 × 1 0 − 2 1×10^{-2} 1×10−2,在整个训练过程中线性衰减至 1 × 1 0 − 4 1×10^{-4} 1×10−4。应用多种数据增强技术,包括Mosaic、Mixup和复制粘贴增强等,以提升训练效果,使用Albumentations库进行数据增强操作。详细超参数设置如下表所示:
超参数 | YOLOv12 - N/S/M/L/X |
---|---|
训练配置 | |
轮数 | 600 |
优化器 | SGD |
动量 | 0.937 |
批量大小 | 32×8 |
权重衰减 | 5 × 1 0 − 4 5×10^{-4} 5×10−4 |
热身轮数 | 3 |
热身动量 | 0.8 |
热身偏差学习率 | 0.0 |
初始学习率 | 1 0 − 2 10^{-2} 10−2 |
最终学习率 | 1 0 − 4 10^{-4} 10−4 |
学习率调度 | 线性衰减 |
损失参数 | |
边界框损失增益 | 7.5 |
分类损失增益 | 0.5 |
DFL损失增益 | 1.5 |
增强参数 | |
HSV饱和度增强 | 0.7 |
HSV值增强 | 0.4 |
HSV色调增强 | 0.015 |
平移增强 | 0.1 |
缩放增强 | 0.5/0.9/0.9/0.9/0.9 |
Mosaic增强 | 1.0 |
Mixup增强 | 0.0/0.05/0.15/0.15/0.2 |
复制粘贴增强 | 0.1/0.15/0.4/0.5/0.6 |
关闭Mosaic轮数 | 10 |
所有模型在8×NVIDIA A6000 GPU上进行训练。按照惯例,报告不同目标尺度和IoU阈值下的标准平均精度均值(mAP),同时报告所有图像的平均延迟。更多详细信息可查看官方代码:https://github.com/sunsmarterjie/yolov12。
7.2 结果细节
论文中报告了YOLOv12在COCO数据集上更详细的结果,包括不同评估指标下的精度:
模型 | A P 50 : 95 v a l AP_{50:95}^{val} AP50:95val | A P 50 v a l AP_{50}^{val} AP50val | A P 75 v a l AP_{75}^{val} AP75val | A P s m a l l v a l AP_{small}^{val} APsmallval | A P m e d i u m v a l AP_{medium}^{val} APmediumval | A P l a r g e v a l AP_{large}^{val} APlargeval |
---|---|---|---|---|---|---|
YOLOv12 - N | 40.6 | 56.7 | 43.8 | 20.2 | 45.2 | 58.4 |
YOLOv12 - S | 48.0 | 65.0 | 51.8 | 29.8 | 53.2 | 65.6 |
YOLOv12 - M | 52.5 | 69.6 | 57.1 | 35.7 | 58.2 | 68.8 |
YOLOv12 - L | 53.7 | 70.7 | 58.5 | 36.9 | 59.5 | 69.9 |
YOLOv12 - X | 55.2 | 72.0 | 60.2 | 39.6 | 60.7 | 70.9 |
这些结果从多个角度全面展示了YOLOv12在不同尺度目标检测上的性能表现,为评估模型的实际应用效果提供了丰富的数据支持。例如, A P 50 : 95 v a l AP_{50:95}^{val} AP50:95val综合考虑了不同IoU阈值下的精度,反映了模型在不同重叠程度要求下的检测能力; A P s m a l l v a l AP_{small}^{val} APsmallval、 A P m e d i u m v a l AP_{medium}^{val} APmediumval和 A P l a r g e v a l AP_{large}^{val} APlargeval则分别针对小、中、大尺寸目标的检测精度进行评估,有助于了解模型对不同大小目标的检测效果差异。
7.3 不同模型规模在实际场景中的表现分析
从YOLOv12不同模型规模的实验结果来看,各模型在实际场景应用中展现出不同的优势。
YOLOv12-N:该模型在保持较低计算量(6.5G FLOPs)和较少参数(2.6M)的同时,实现了40.6%的mAP,推理延迟仅为1.64ms/image。这使得它在对计算资源要求苛刻且对检测精度要求不是极高的实时场景中表现出色,例如在一些移动端设备或低配置嵌入式系统中进行实时目标检测,它能够快速响应并提供较为准确的检测结果,像在智能监控摄像头的实时目标检测功能中,可在有限的硬件资源下及时发现异常目标。
YOLOv12-S:其FLOPs为21.4G,参数9.3M,mAP达到48.0,延迟2.61ms/image。相比同类型的S规模模型,它在精度和速度之间达到了良好的平衡。适用于对精度有一定要求,同时需要保证一定处理速度的场景,如智能交通系统中对道路上车辆、行人的实时检测与识别,既能够准确区分不同的目标类别,又能在短时间内处理大量的视频帧数据,为交通管理和安全决策提供及时信息。
YOLOv12-M:FLOPs为67.5G,参数20.2M,mAP为52.5,速度4.86ms/image。在中等规模模型中,它的精度优势较为明显。对于一些对目标检测精度要求较高,且计算资源相对充足的场景,如工业生产线上对产品缺陷的检测,需要准确识别微小的缺陷特征,YOLOv12-M能够凭借其较高的精度满足这类任务需求,同时其速度也能满足生产线一定的实时性要求,不会因检测速度过慢影响生产效率。
YOLOv12-L和YOLOv12-X:这两个较大规模的模型在精度上进一步提升,YOLOv12-L的mAP为53.7,YOLOv12-X达到55.2。虽然它们的计算量和参数相对较大,推理延迟也有所增加,但在对精度要求极高的场景中,如医学影像分析中对微小病灶的检测、卫星图像中对特定目标的识别等,其高准确率能够有效减少漏检和误检情况的发生,为专业领域的分析和决策提供可靠依据。
7.4 与其他模型对比的深入探讨
在与其他流行的实时目标检测模型对比时,YOLOv12的优势不仅体现在精度和速度的综合性能上,还体现在模型的资源利用效率方面。
以与RT-DETR系列模型对比为例,YOLOv12-S在与RT-DETR-R18/RT-DETRv2R18的比较中,mAP分别高出1.5%/0.1%,同时推理速度快42%,计算量仅为其36%,参数为45%。这意味着YOLOv12-S在实现更高检测精度的同时,能够以更少的计算资源和参数达到更快的推理速度。从模型架构角度分析,YOLOv12的区域注意力机制和R-ELAN结构有效地减少了计算复杂度,优化了特征提取和聚合过程,使得模型在性能提升的同时降低了资源需求。
与同属YOLO系列的其他版本相比,YOLOv12在不同模型规模下均有性能提升。如YOLOv12-N相较于YOLOv10-N,mAP提高了2.1%,且保持更快的推理速度;YOLOv12-X比YOLOv10-X在mAP上提升了0.8%,且速度、计算量和参数相当。这一系列对比结果表明,YOLOv12通过引入新的设计和优化策略,打破了传统YOLO模型的性能瓶颈,为实时目标检测领域带来了新的突破。