探索水下低光照图像检测性能，基于YOLOv8全系列【n/s/m/l/x】参数模型开发构建海底生物检测识别分析系统

最新推荐文章于 2024-08-06 15:35:01 发布

Together_CZ

最新推荐文章于 2024-08-06 15:35:01 发布

阅读量1.5k

点赞数 33

文章标签： YOLO

本文链接：https://blog.csdn.net/Together_CZ/article/details/135904345

版权

海底这类特殊数据场景下的检测模型开发相对来水比较少，在前面的博文中也有一些涉及，感兴趣的话可以自行移步阅读即可：

《尝试探索水下目标检测，基于yolov5轻量级系列模型n/s/m开发构建海底生物检测系统》

《基于YOLOv5+C3CBAM+CBAM注意力的海底生物[海参、海胆、扇贝、海星]检测识别分析系统》

《基于自建数据集【海底生物检测】使用YOLOv5-v6.1/2版本构建目标检测模型超详细教程》

《探索水下低光照图像检测性能，基于轻量级YOLOv8模型开发构建海底生物检测识别分析系统》

《探索水下低光照图像检测性能，基于YOLOv7【tiny/l/x】不同系列参数模型开发构建海底生物检测识别分析系统》

本文的主要想法是想要基于YOLO系列最新的YOLOv8来开发构建海底生物检测识别系统，在前文我们已经实践开发了YOLOv8系列中轻量级的模型，对比分析了模型的精度等性能情况，这里我们想要构建更为全面的对比实验，所以选择开发构建全系列不同参数量级的模型来全面整体地进行对比分析。

首先看下实例效果：

如果对YOLOv8开发构建自己的目标检测项目有疑问的可以看下面的文章，如下所示：

《基于YOLOv8开发构建目标检测模型超详细教程【以焊缝质量检测数据场景为例】》https://blog.csdn.net/Together_CZ/article/details/131695375

非常详细的开发实践教程。本文这里就不再展开了，因为从YOLOv8开始变成了一个安装包的形式，整体跟v5和v7的使用差异还是比较大的。

YOLOv8核心特性和改动如下：
1、提供了一个全新的SOTA模型（state-of-the-art model），包括 P5 640 和 P6 1280 分辨率的目标检测网络和基于YOLACT的实例分割模型。和 YOLOv5 一样，基于缩放系数也提供了 N/S/M/L/X 尺度的不同大小模型，用于满足不同场景需求
2、骨干网络和 Neck 部分可能参考了 YOLOv7 ELAN 设计思想，将 YOLOv5 的 C3 结构换成了梯度流更丰富的 C2f 结构，并对不同尺度模型调整了不同的通道数，属于对模型结构精心微调，不再是一套参数应用所有模型，大幅提升了模型性能。
3、Head 部分相比 YOLOv5 改动较大，换成了目前主流的解耦头结构，将分类和检测头分离，同时也从Anchor-Based 换成了 Anchor-Free
4、Loss 计算方面采用了TaskAlignedAssigner正样本分配策略，并引入了Distribution Focal Loss
5、训练的数据增强部分引入了 YOLOX 中的最后 10 epoch 关闭 Mosiac 增强的操作，可以有效地提升精度

简单看下实例数据情况：

实例数据标注内容如下所示：

0 0.109722 0.902469 0.136111 0.150617
1 0.210417 0.801235 0.1375 0.214815
1 0.125 0.723457 0.133333 0.251852
1 0.217361 0.603704 0.070833 0.135802
1 0.29375 0.651852 0.065278 0.128395
2 0.336111 0.876543 0.130556 0.241975
1 0.465278 0.87284 0.102778 0.259259
1 0.572222 0.807407 0.158333 0.276543
0 0.514583 0.503704 0.165278 0.553086
1 0.363194 0.717284 0.115278 0.185185
1 0.376389 0.583951 0.113889 0.165432
1 0.461806 0.635802 0.1125 0.185185
2 0.241667 0.488889 0.072222 0.128395
2 0.340972 0.467901 0.095833 0.145679
1 0.479861 0.401235 0.081944 0.145679
1 0.399306 0.346914 0.0875 0.125926
0 0.424306 0.262963 0.098611 0.155556
0 0.363194 0.293827 0.073611 0.222222
0 0.266667 0.193827 0.158333 0.209877
0 0.36875 0.139506 0.0625 0.22963
0 0.176389 0.351852 0.122222 0.160494
0 0.246528 0.150617 0.098611 0.212346
1 0.445833 0.108642 0.077778 0.123457
1 0.645833 0.516049 0.127778 0.237037
1 0.604167 0.288889 0.113889 0.202469
1 0.65 0.08642 0.133333 0.167901
0 0.825 0.334568 0.188889 0.367901
0 0.833333 0.209877 0.208333 0.316049
0 0.977083 0.25679 0.048611 0.133333
2 0.757639 0.193827 0.115278 0.224691
2 0.796528 0.035802 0.115278 0.066667
2 0.920139 0.07037 0.159722 0.135802

总数量体量在1.3w左右。

YOLOv8官方项目地址在这里，如下所示：

目前已经收获超过1.7w的star量了。官方提供的预训练模型如下所示：

Model	size (pixels)	mAPval 50-95	Speed CPU ONNX (ms)	Speed A100 TensorRT (ms)	params (M)	FLOPs (B)
YOLOv8n	640	37.3	80.4	0.99	3.2	8.7
YOLOv8s	640	44.9	128.4	1.20	11.2	28.6
YOLOv8m	640	50.2	234.7	1.83	25.9	78.9
YOLOv8l	640	52.9	375.2	2.39	43.7	165.2
YOLOv8x	640	53.9	479.1	3.53	68.2	257.8

另外一套预训练模型权重地址如下：

Model	size (pixels)	mAPval 50-95	Speed CPU ONNX (ms)	Speed A100 TensorRT (ms)	params (M)	FLOPs (B)
YOLOv8n	640	18.4	142.4	1.21	3.5	10.5
YOLOv8s	640	27.7	183.1	1.40	11.4	29.7
YOLOv8m	640	33.6	408.5	2.26	26.2	80.6
YOLOv8l	640	34.9	596.9	2.43	44.1	167.4
YOLOv8x	640	36.3	860.6	3.56	68.7	260.6

是基于Open Image V7数据集构建的，可以根据自己的需求进行选择使用即可。

YOLOv8的定位不仅仅是目标检测，而是性能强大全面的工具库，故而在任务类型上同时支持：姿态估计、检测、分类、分割、跟踪多种类型，可以根据自己的需要进行选择使用，这里就不再详细展开了。

简单的实例实现如下所示：

from ultralytics import YOLO
 
# yolov8n
model = YOLO('yolov8n.yaml').load('yolov8n.pt')  # build from YAML and transfer weights
model.train(data='data/self.yaml', epochs=100, imgsz=640)
 
 
# yolov8s
model = YOLO('yolov8s.yaml').load('yolov8s.pt')  # build from YAML and transfer weights
model.train(data='data/self.yaml', epochs=100, imgsz=640)
 
 
# yolov8m
model = YOLO('yolov8m.yaml').load('yolov8m.pt')  # build from YAML and transfer weights
model.train(data='data/self.yaml', epochs=100, imgsz=640)
 
 
# yolov8l
model = YOLO('yolov8l.yaml').load('yolov8l.pt')  # build from YAML and transfer weights
model.train(data='data/self.yaml', epochs=100, imgsz=640)
 
 
# yolov8x
model = YOLO('yolov8x.yaml').load('yolov8x.pt')  # build from YAML and transfer weights
model.train(data='data/self.yaml', epochs=100, imgsz=640)

这里给出yolov8的模型文件如下：

# Ultralytics YOLO 🚀, AGPL-3.0 license
# YOLOv8 object detection model with P3-P5 outputs. For Usage examples see https://docs.ultralytics.com/tasks/detect

# Parameters
nc: 4  # number of classes
scales: # model compound scaling constants, i.e. 'model=yolov8n.yaml' will call yolov8.yaml with scale 'n'
  # [depth, width, max_channels]
  n: [0.33, 0.25, 1024]  # YOLOv8n summary: 225 layers,  3157200 parameters,  3157184 gradients,   8.9 GFLOPs
  s: [0.33, 0.50, 1024]  # YOLOv8s summary: 225 layers, 11166560 parameters, 11166544 gradients,  28.8 GFLOPs
  m: [0.67, 0.75, 768]   # YOLOv8m summary: 295 layers, 25902640 parameters, 25902624 gradients,  79.3 GFLOPs
  l: [1.00, 1.00, 512]   # YOLOv8l summary: 365 layers, 43691520 parameters, 43691504 gradients, 165.7 GFLOPs
  x: [1.00, 1.25, 512]   # YOLOv8x summary: 365 layers, 68229648 parameters, 68229632 gradients, 258.5 GFLOPs

# YOLOv8.0n backbone
backbone:
  # [from, repeats, module, args]
  - [-1, 1, Conv, [64, 3, 2]]  # 0-P1/2
  - [-1, 1, Conv, [128, 3, 2]]  # 1-P2/4
  - [-1, 3, C2f, [128, True]]
  - [-1, 1, Conv, [256, 3, 2]]  # 3-P3/8
  - [-1, 6, C2f, [256, True]]
  - [-1, 1, Conv, [512, 3, 2]]  # 5-P4/16
  - [-1, 6, C2f, [512, True]]
  - [-1, 1, Conv, [1024, 3, 2]]  # 7-P5/32
  - [-1, 3, C2f, [1024, True]]
  - [-1, 1, SPPF, [1024, 5]]  # 9

# YOLOv8.0n head
head:
  - [-1, 1, nn.Upsample, [None, 2, 'nearest']]
  - [[-1, 6], 1, Concat, [1]]  # cat backbone P4
  - [-1, 3, C2f, [512]]  # 12

  - [-1, 1, nn.Upsample, [None, 2, 'nearest']]
  - [[-1, 4], 1, Concat, [1]]  # cat backbone P3
  - [-1, 3, C2f, [256]]  # 15 (P3/8-small)

  - [-1, 1, Conv, [256, 3, 2]]
  - [[-1, 12], 1, Concat, [1]]  # cat head P4
  - [-1, 3, C2f, [512]]  # 18 (P4/16-medium)

  - [-1, 1, Conv, [512, 3, 2]]
  - [[-1, 9], 1, Concat, [1]]  # cat head P5
  - [-1, 3, C2f, [1024]]  # 21 (P5/32-large)

  - [[15, 18, 21], 1, Detect, [nc]]  # Detect(P3, P4, P5)

实验阶段，5款不同参数量级的模型保持着完全相同的参数配置，等待训练完成后我们来看下模型结果详情。为了直观对比展示，这里我们对其各个评估指标进行对比可视化

【Precision曲线】
精确率曲线（Precision-Recall Curve）是一种用于评估二分类模型在不同阈值下的精确率性能的可视化工具。它通过绘制不同阈值下的精确率和召回率之间的关系图来帮助我们了解模型在不同阈值下的表现。
精确率（Precision）是指被正确预测为正例的样本数占所有预测为正例的样本数的比例。召回率（Recall）是指被正确预测为正例的样本数占所有实际为正例的样本数的比例。
绘制精确率曲线的步骤如下：
使用不同的阈值将预测概率转换为二进制类别标签。通常，当预测概率大于阈值时，样本被分类为正例，否则分类为负例。
对于每个阈值，计算相应的精确率和召回率。
将每个阈值下的精确率和召回率绘制在同一个图表上，形成精确率曲线。
根据精确率曲线的形状和变化趋势，可以选择适当的阈值以达到所需的性能要求。
通过观察精确率曲线，我们可以根据需求确定最佳的阈值，以平衡精确率和召回率。较高的精确率意味着较少的误报，而较高的召回率则表示较少的漏报。根据具体的业务需求和成本权衡，可以在曲线上选择合适的操作点或阈值。
精确率曲线通常与召回率曲线（Recall Curve）一起使用，以提供更全面的分类器性能分析，并帮助评估和比较不同模型的性能。

【Recall曲线】
召回率曲线（Recall Curve）是一种用于评估二分类模型在不同阈值下的召回率性能的可视化工具。它通过绘制不同阈值下的召回率和对应的精确率之间的关系图来帮助我们了解模型在不同阈值下的表现。
召回率（Recall）是指被正确预测为正例的样本数占所有实际为正例的样本数的比例。召回率也被称为灵敏度（Sensitivity）或真正例率（True Positive Rate）。
绘制召回率曲线的步骤如下：
使用不同的阈值将预测概率转换为二进制类别标签。通常，当预测概率大于阈值时，样本被分类为正例，否则分类为负例。
对于每个阈值，计算相应的召回率和对应的精确率。
将每个阈值下的召回率和精确率绘制在同一个图表上，形成召回率曲线。
根据召回率曲线的形状和变化趋势，可以选择适当的阈值以达到所需的性能要求。
通过观察召回率曲线，我们可以根据需求确定最佳的阈值，以平衡召回率和精确率。较高的召回率表示较少的漏报，而较高的精确率意味着较少的误报。根据具体的业务需求和成本权衡，可以在曲线上选择合适的操作点或阈值。

【F1值曲线】
F1值曲线是一种用于评估二分类模型在不同阈值下的性能的可视化工具。它通过绘制不同阈值下的精确率（Precision）、召回率（Recall）和F1分数的关系图来帮助我们理解模型的整体性能。F1分数是精确率和召回率的调和平均值，它综合考虑了两者的性能指标。F1值曲线可以帮助我们确定在不同精确率和召回率之间找到一个平衡点，以选择最佳的阈值。

【mAP0.5】
mAP0.5（mean Average Precision at 0.5 IoU）
mAP0.5表示在IoU（交并比）阈值为0.5的情况下计算的平均精度（Average Precision，AP）。
IoU阈值决定了何时认为检测框与真实框匹配。较高的IoU阈值意味着更严格的匹配标准。
mAP0.5主要关注低阈值下的性能，即当IoU接近0.5时，模型在识别重叠框时的准确性。

【mAP0.5:0.95】
mAP0.5:0.95（mean Average Precision over IoU thresholds from 0.5 to 0.95）：
mAP0.5:0.95表示在多个IoU阈值（从0.5到0.95）下计算的平均精度。
它涵盖了从低到高的IoU阈值，更全面地评估了模型在不同IoU阈值下的性能。
mAP0.5:0.95可以帮助我们了解模型在不同重叠程度下的检测能力。

整体实验对比结果来看：n系列的模型效果最差，被其他系列的模型拉开了明显的差距，s系列的模型次之，同样被其他3款模型拉开了明显的差距，单稍优于n系列的模型，m系列的模型明显优于n和s系列的模型，但是m系列模型和l、x系列的模型依旧有较为明显的差距，l和x模型前面有差距后期达到了相近的水准，最终我们考虑选择l系列的模型作为线上模型。接下来以l系列的模型为基准进一步看下结果详情：

【PR曲线】
精确率-召回率曲线（Precision-Recall Curve）是一种用于评估二分类模型性能的可视化工具。它通过绘制不同阈值下的精确率（Precision）和召回率（Recall）之间的关系图来帮助我们了解模型在不同阈值下的表现。
精确率是指被正确预测为正例的样本数占所有预测为正例的样本数的比例。召回率是指被正确预测为正例的样本数占所有实际为正例的样本数的比例。
绘制精确率-召回率曲线的步骤如下：
使用不同的阈值将预测概率转换为二进制类别标签。通常，当预测概率大于阈值时，样本被分类为正例，否则分类为负例。
对于每个阈值，计算相应的精确率和召回率。
将每个阈值下的精确率和召回率绘制在同一个图表上，形成精确率-召回率曲线。
根据曲线的形状和变化趋势，可以选择适当的阈值以达到所需的性能要求。
精确率-召回率曲线提供了更全面的模型性能分析，特别适用于处理不平衡数据集和关注正例预测的场景。曲线下面积（Area Under the Curve, AUC）可以作为评估模型性能的指标，AUC值越高表示模型的性能越好。
通过观察精确率-召回率曲线，我们可以根据需求选择合适的阈值来权衡精确率和召回率之间的平衡点。根据具体的业务需求和成本权衡，可以在曲线上选择合适的操作点或阈值。