- C2PSA模块:新增的“带并行空间注意力的卷积块”,通过空间注意力机制增强模型对关键区域的聚焦能力,提升了检测精度,尤其是在复杂场景或小目标检测中。
- SPPF模块的保留与优化:延续了YOLOv8的快速空间金字塔池化模块,进一步加速多尺度特征融合。
C3k2模块是YOLOv11的核心创新之一,其工作原理通过以下关键设计实现高效特征提取与计算优化:
2.2. c3k2具体工作原理
2.2.1. 双小卷积替代大卷积
- 传统做法:YOLOv8的C2f模块使用较大的卷积核(如3×3),单次卷积计算量较高。
- C3k2改进:用两个连续的2×2卷积(即“k2”)替代单个3×3卷积,如图1所示:
-
- 第一层2×2卷积:提取局部特征,减少参数量(2×2核的参数量为4,而3×3核为9)。
- 第二层2×2卷积:进一步融合特征,增强非线性表达能力。
- 优势:
-
- 计算效率:两个2×2卷积的总计算量(4+4=8)低于单个3×3卷积(9),节省11%的运算量。
- 感受野保留:两个2×2卷积的叠加等效于一个3×3卷积的感受野(2×2卷积堆叠两次的覆盖范围为3×3)。
2.2.2. 跨阶段部分连接(CSP)
- 结构拆分:输入特征图被分为两部分:
-
- 主分支:通过双2×2卷积处理,提取深层特征。
- 捷径分支:直接保留原始特征(类似残差连接)。
- 特征融合:主分支与捷径分支的特征在通道维度拼接,避免信息丢失,同时缓解梯度消失问题。
2.2.3. 可配置模式(c3k参数)
- 当
c3k=False
:退化为类似C2f的瓶颈结构,仅保留基础CSP连接。 - 当
c3k=True
:启用更复杂的C3模块,增加深度和特征交互能力,适合高精度场景。
2.3. 注意力机制的深度整合
- 空间注意力增强:通过C2PSA模块,模型能够动态关注图像中的关键区域,有效提升对遮挡目标或复杂背景的鲁棒性。
- C2PSA(Convolutional block with Parallel Spatial Attention)是YOLOv11中引入的核心注意力模块,通过并行双分支结构和空间注意力机制,动态增强特征图中的关键区域,同时抑制无关背景噪声。其设计兼顾高效性与精度提升,尤其适用于复杂场景(如小目标、遮挡)。以下是其详细原理与流程:
2.3.1. 模块设计目标
- 核心功能:在特征图中自动聚焦重要区域,提升目标检测的定位与分类精度。
- 创新点:
-
- 并行双分支:同时处理局部细节(卷积路径)和全局上下文(注意力路径),避免串行结构的特征损失。
- 轻量化注意力:通过高效的空间权重计算,减少计算开销(仅增加3-5% FLOPs)。
2.3.2. 模块结构分解
C2PSA由两条并行分支组成,最终通过特征融合输出结果:
2.3.2.1. 分支1:局部特征提取(卷积分支)
- 操作流程:
- 1×1卷积:压缩通道数(如输入通道C→C/2),降低计算量。
- 3×3深度可分离卷积(DWConv):提取局部空间特征,保留细节信息。
- 可深度分离卷积的解释:这个可分离卷积相比于普通的卷积 就是原本64x64x3的图片一般卷积核是3个1x1x3 通道数,每个卷积核生成的图片的通道数是1 三个拼在一起是64x64x3。但是可分离的卷积就是 1x1x1对一个通道进行卷积 这样的话 3个 1x1x1可分离的卷积 生成的输出虽然输出是3通道 但是这样的卷积只会对一个通道上进行卷积输出 不会像普通的卷积那样对通道的特征进行融合。下面这个链接我觉得解释的字数有点多 ,但是那个图很好理解 可以看看那个人画的图,链接如下:深入浅出理解深度可分离卷积(Depthwise Separable Convolution)_dwconv-CSDN博客
- 操作步骤:
- 步骤1:1×1卷积压缩通道
输入:[B, C, H, W]
操作:通过1×1卷积将通道数从 C 压缩至 C//2(减少计算量)。
输出:[B, C//2, H, W]
作用:
降低后续深度可分离卷积的计算复杂度。
保留特征图的原始空间分辨率(H×W不变)。
- 步骤2:3×3深度可分离卷积(DWConv)
输入:[B, C//2, H, W]
操作:
深度卷积:对每个输入通道单独应用3×3卷积(groups=C//2),不混合通道信息。
逐点卷积:通常省略(若保留,需接1×1卷积混合通道)。
输出:[B, C//2, H, W]
作用:
提取局部空间特征(如边缘、纹理),感受野为3×3。
相比标准卷积,参数量减少至原来的 1/C//2(高效计算)。
- 步骤3:输出与注意力分支拼接
输出:[B, C//2, H, W]
后续操作:与注意力分支的输出 [B, C//2, H, W] 在通道维度拼接,恢复原始通道数 [B, C, H, W]。
2.3.2.2. 分支2:空间注意力(注意力分支)
- 操作流程:
- 通道压缩:1×1卷积将输入特征图从C通道压缩至C/4(减少计算量)。
- 空间权重生成:
- 双池化聚合:对压缩后的特征图分别进行全局平均池化(GAP)和全局最大池化(GMP),生成两个1×H×W的权重图。
- 权重融合:将GAP与GMP的结果相加,通过Sigmoid激活函数生成空间注意力矩阵(值域0~1)。
- 特征增强:将注意力矩阵与原特征图逐元素相乘,强化重要区域特征。
2.3.2.3. 特征融合与输出
- 拼接(Concat):将卷积分支(C/2通道)和注意力分支(C/2通道)的输出沿通道维度拼接,恢复原始通道数(C×H×W)。
- 1×1卷积:调整通道维度,确保与输入尺寸一致。
- 残差连接:将融合结果与输入特征图相加,保留原始信息并稳定训练。
公式表示:
2.3.3. 3. 关键创新点
技术 | 作用 | 对比传统模块(如CBAM) |
并行双分支 | 同时捕获局部细节与全局上下文,避免串行结构的特征退化 | CBAM的串行设计可能导致信息丢失 |
轻量化注意力 | 仅压缩至C/4通道计算权重,减少计算量 | SENet的通道注意力计算开销较高 |
双池化融合 | GAP(平滑全局信息) + GMP(突出显著区域),生成更鲁棒的注意力图 | 单一池化(如SENet)对复杂场景适应性不足 |
2.3.4. 4. 工作流程示例
以输入特征图尺寸256×64×64
(C×H×W)为例:
- 卷积分支:
-
- 1×1卷积:256→128通道 → DWConv 3×3 → 输出128×64×64。
- 注意力分支:
-
- 1×1卷积:256→64通道 → GAP+GMP → 相加+Sigmoid → 生成1×64×64权重矩阵 → 加权原特征图(256×64×64)。
- 融合输出:
-
- 拼接卷积分支(128)和注意力分支(128)→ 1×1卷积调整至256通道 → 残差连接输出256×64×64。
2.4. 总结
YOLOv11的核心创新在于通过轻量化模块设计(C3k2)、注意力机制增强(C2PSA),实现了精度、速度和泛化能力的全面提升。主要就是轻量化那有个可变的卷积核 给了一个可选择的参数项,在注意力机制那里我觉得创新比较好,根据注意力分支给卷积分支那边的特征图不同的区域赋予不同的权重,也更好的视线了端到端的训练,其模块化设计也为后续迭代提供了灵活的基础。