YOLO11-pose关键点检测：具有切片操作的SimAM注意力，魔改SimAM助力pose关键点检测能力（二）

AI小怪兽

已于 2024-12-19 09:13:47 修改

阅读量1.1k

点赞数 13

分类专栏： YOLOv8、11、v12成长师文章标签： python 人工智能 YOLO 网络开源华为

于 2024-10-17 08:58:27 首次发布

本文链接：https://blog.csdn.net/m0_63774211/article/details/142996555

版权

YOLOv8、11、v12成长师专栏收录该内容

95 篇文章

订阅专栏

💡💡💡本文创新：魔改SimAM注意力，引入切片操作，增强小目标特征提取能力

💡💡💡问题点：SimAM计算整张特征图的像素差平均值时加权可能会忽略小目标的重要性，同时与整体平均值相比可能和背景信息相似，导致加权增强较弱，进而使得SimAM对小目标的增强能力较差。

💡💡💡本文内容：通过魔改SimAM注意力提升YOLO11-pose的关键点检测能力，

Pose mAP50 有原先的 0.871 提升至0.885

《YOLOv11魔术师专栏》将从以下各个方向进行创新：

YOLO11魔术师

【原创自研模块】【多组合点优化】【注意力机制】【卷积魔改】【block&多尺度融合结合】【损失&IOU优化】【上下采样优化 】【小目标性能提升】【前沿论文分享】【训练实战篇】

订阅者通过添加WX: AI_CV_0624，入群沟通，提供改进结构图等一系列定制化服务。

定期向订阅者提供源码工程，配合博客使用。

订阅者可以申请发票，便于报销

💡💡💡为本专栏订阅者提供创新点改进代码，改进网络结构图，方便paper写作！！！

💡💡💡适用场景：红外、小目标检测、工业缺陷检测、医学影像、遥感目标检测、低对比度场景

💡💡💡适用任务：所有改进点适用【检测】、【分割】、【pose】、【分类】等

💡💡💡全网独家首发创新，【自研多个自研模块】，【多创新点组合适合paper 】！！！

☁️☁️☁️☁️☁️☁️☁️☁️☁️☁️☁️☁️☁️☁️☁️☁️☁️☁️ ☁️☁️☁️☁️☁️☁️☁️☁️☁️☁️☁️☁️☁️☁️

包含注意力机制魔改、卷积魔改、检测头创新、损失&IOU优化、block优化&多层特征融合、轻量级网络设计、24年最新顶会改进思路、原创自研paper级创新等

🚀🚀🚀 本项目持续更新 | 更新完结保底≥80+ ，冲刺100+ 🚀🚀🚀

🍉🍉🍉 联系WX: AI_CV_0624 欢迎交流！🍉🍉🍉

⭐⭐⭐专栏涨价趋势 159 ->199->259->299，越早订阅越划算⭐⭐⭐

💡💡💡 2024年计算机视觉顶会创新点适用于Yolov5、Yolov7、Yolov8、Yolov9等各个Yolo系列，专栏文章提供每一步步骤和源码，轻松带你上手魔改网络！！！

💡💡💡重点：通过本专栏的阅读，后续你也可以设计魔改网络，在网络不同位置（Backbone、head、detect、loss等）进行魔改，实现创新！！！

☁️☁️☁️☁️☁️☁️☁️☁️☁️☁️☁️☁️☁️☁️☁️☁️☁️☁️ ☁️☁️☁️☁️☁️☁️☁️☁️☁️☁️☁️☁️☁️☁️

1.YOLO11介绍

Ultralytics YOLO11是一款尖端的、最先进的模型，它在之前YOLO版本成功的基础上进行了构建，并引入了新功能和改进，以进一步提升性能和灵活性。YOLO11设计快速、准确且易于使用，使其成为各种物体检测和跟踪、实例分割、图像分类以及姿态估计任务的绝佳选择。

pose官方在COCO数据集上做了更多测试：

结构图如下：

1.1 C3k2

C3k2，结构图如下

C3k2，继承自类C2f，其中通过c3k设置False或者Ture来决定选择使用C3k还是Bottleneck

实现代码ultralytics/nn/modules/block.py

1.2 C2PSA介绍

借鉴V10 PSA结构，实现了C2PSA和C2fPSA，最终选择了基于C2的C2PSA（可能涨点更好？）

实现代码ultralytics/nn/modules/block.py

1.3 11 Detect介绍

分类检测头引入了DWConv（更加轻量级，为后续二次创新提供了改进点），结构图如下（和V8的区别）：

实现代码ultralytics/nn/modules/head.py

2. 手势关键点数据集介绍

2.1数据集介绍

数据集大小300张：训练集236张，验证集64张

关键点共21个

# 关键点的类别
keypoint_class = ['Ulna', 'Radius', 'FMCP','FPIP', 'FDIP', 'MCP5','MCP4', 'MCP3', 'MCP2','PIP5', 'PIP4', 'PIP3'
                  ,'PIP2', 'MIP5', 'MIP4','MIP3', 'MIP2', 'DIP5','DIP4', 'DIP3', 'DIP2']

标记后的数据格式如下:一张图片对应一个json文件

labelme2yolo-keypoint

源码见博客:

YOLO11-pose关键点检测：训练实战篇 | 自己数据集从labelme标注到生成yolo格式的关键点数据以及训练教程-CSDN博客

生成的txt内容如下:

0 0.48481 0.47896 0.70079 0.77886 0.31308 0.70597 2 0.42206 0.70695 2 0.54954 0.59785 2 0.67569 0.53278 2 0.76420 0.48288 2 0.28402 0.46282 2 0.35865 0.44521 2 0.43395 0.43102 2 0.52642 0.43836 2 0.26486 0.42270 2 0.34941 0.39188 2 0.44782 0.37818 2 0.55680 0.39628 2 0.21731 0.34051 2 0.33884 0.27495 2 0.47094 0.25196 2 0.62351 0.29746 2 0.20674 0.29403 2 0.33620 0.20108 2 0.48018 0.16879 2 0.65654 0.24070 2

讲解：

第一个0代表：框的类别，因为只有hand一类，所以为0

0.48481 0.47896 0.70079 0.77886 代表：归一化后的框的中心点横纵坐标、宽、高

0.31308 0.70597 2代表：归一化后的第一个关键点的横纵坐标、关键点可见性

关键点可见性理解：0代表不可见、1代表遮挡、2代表可见

2.1 生成的yolo数据集如下

hand_keypoint：
-images:
 --train: png图片
 --val：png图片
-labels：
 --train: txt文件
 --val：txt文件

3.原理介绍

原文链接：YOLOv11全网首发：注意力独家魔改 | 具有切片操作的SimAM注意力，魔改SimAM助力小目标检测-CSDN博客

摘要：SimAM是一个无神经网络的特征增强模块，具有轻量级的优点，且在提升识别性能方面有潜力，基于此我们设计了新模块sws,之所以加入切片操作是因为SimAM计算整张特征图的像素差平均值时加权可能会忽略小目标的重要性，小目标在航拍图像中占比比较小，与整体平均值相比可能和背景信息相似，导致加权增强较弱，进而使得SimAM对小目标的增强能力较差。

因此我们引入了切片操作，当特征图被切成不同的块后，大目标由于其纹理特征明显会影响所在块的平均值，导致其获得的额外加权减少，而合并特征图后，大目标依然可以保持高可识别度甚至获得进一步增强；而小目标的特征与局部平均值差距更大，从而获得更多加权，小目标特征得到增强，即sws模块保证了大、小目标都获得了公正的关注和增强。

4.YOLO11-pose魔改提升精度

4.1原始结果

Pose mAP50 为 0.871

YOLO11-pose summary (fused): 300 layers, 3,199,712 parameters, 0 gradients, 7.8 GFLOPs
                 Class     Images  Instances      Box(P          R      mAP50  mAP50-95)     Pose(P          R      mAP50  mAP50-95): 100%|██████████| 4/4 [00:04<00:00,  1.23s/it]
                   all         64         64      0.999          1      0.995      0.668      0.922      0.922      0.871      0.638

PosePR_curve.png

4.2 具有切片操作的SimAM注意力

Pose mAP50 有原先的 0.871 提升至0.885

YOLO11-pose-Conv_SWS summary (fused): 328 layers, 3,200,400 parameters, 0 gradients, 7.8 GFLOPs
                 Class     Images  Instances      Box(P          R      mAP50  mAP50-95)     Pose(P          R      mAP50  mAP50-95): 100%|██████████| 4/4 [00:05<00:00,  1.30s/it]
                   all         64         64      0.999          1      0.995      0.698      0.922      0.922

PosePR_curve.png