YOLOv11网络结构图及简介

YOLOv11 网络结构图

YOLOv11网络结构图

1. 前言

YOLOv11(以下简称v11)是Ultralytics公司于2024年下半年推出的最新YOLO(You Only Look Once)模型。它在物体检测、分割、姿态估计、跟踪和分类等多项任务中提供了最先进(SOTA)的性能。该模型相比于YOLOv10(以下简称v10)无论在推理速度抑或是精度上均有所提升,从数据上来看,v11的Extra Large模型在COCO数据集上的mAP50-95为54.7%,相较于v10提高了0.3%;从推理时延上来看,v11的Nano模型能够在1.55ms完成一张图像的推理,低于v10的1.84ms。尽管在推理精度只有细微的提升,但是在深度学习模型中往往会带来显著的性能提升,而且v11除了Extra Large在推理实验上逊于v10,其余规模的模型在时延上均优于v10。
图1 模型性能对比图

2. 优化

v11在模型整体架构上依旧沿用之前的YOLO框架,即:利用主干网络(Backbone)进行特征提取,采用颈部(Neck)完成特征深层和浅层特征的融合,最后通过头部(Head)的检测头输出结果。相比于前几个版本的YOLO版本,v11在模型算法上主要优化了以下几个地方:C3k2模块与C2PSA模块。

2.1 C3K2

C3k2模块是v11对传统跨阶段局部网络CSPNet(Cross Stage Partial Network)结构的优化版本,其核心目标是通过卷积设计和灵活参数配置提升特征提取效率。其结构特点包括:一部分浅层特征可以直接传递,另一部分依靠参数设置选择多个C3k或者Bottleneck对特征进行深层处理,最终将两部分特征融合,实现多层次特征的有效结合。总结而言:C3k2在C3模块的基础上进行了优化,通过指定参数为2,实现了两个C3k或者Bottleneck的串联,从而进一步提升了特征提取的效率和能力。这种设计使得C3k2能够在保持模型稳定性的同时,提高模型的运行速度,并可能通过增加特征提取的深度来间接提升精度。

2.2 C2PSA

C2PSA(Cross Stage Partial with Pyramid Squeeze Attention)模块是v11中引入的核心模块,通过将CSP结构与注意力机制相结合,显著提升了模型的特征提取能力。其核心设计包括:CSP分段处理,将输入特征图分为两部分,一部分直接传递以保留原始信息,另一部分通过PSA(Pyramid Squeeze Attention)注意力模块处理,最终拼接融合以实现多层次特征的有效结合。
YOLOv11网络结构图

2.3 PSA

PSA注意力机制通过动态调整特征权重增强模型对目标细节的感知能力,尤其适用于复杂场景。该方法采用3×3、5×5、7×7等多尺度卷积核并行卷积提取多尺度特征,扩展感受野;通过通道注意力机制SE(Squeeze-and-Excitation)对通道特征进行动态加权,强化重要通道的响应。相比传统注意力机制,C2PSA通过多尺度卷积和通道加权显著提升了对复杂遮挡物体和关键区域的关注能力,同时在轻量化设计上,CSP结构减少了50%的计算量,PSA机制仅引入少量参数,整体保持了高效性。C2PSA模块在定向物体检测等任务中表现突出,兼顾了性能与计算效率,为复杂场景下的目标检测提供了强有力的支持。

2.4 Head

v11的检测头部分沿用了YOLOv8的设计,在后处理解析上基本相同,保证了模型的稳定可靠。

3. 源代码

https://github.com/ultralytics/ultralytics

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值