探索水下低光照图像检测性能，基于轻量级YOLOv8模型开发构建海底生物检测识别分析系统

最新推荐文章于 2024-05-10 20:28:05 发布

Together_CZ

最新推荐文章于 2024-05-10 20:28:05 发布

阅读量1.5k

点赞数 45

文章标签： YOLO

本文链接：https://blog.csdn.net/Together_CZ/article/details/135842968

版权

海底这类特殊数据场景下的检测模型开发相对来水比较少，在前面的博文中也有一些涉及，感兴趣的话可以自行移步阅读即可：

《尝试探索水下目标检测，基于yolov5轻量级系列模型n/s/m开发构建海底生物检测系统》

《基于YOLOv5+C3CBAM+CBAM注意力的海底生物[海参、海胆、扇贝、海星]检测识别分析系统》

《基于自建数据集【海底生物检测】使用YOLOv5-v6.1/2版本构建目标检测模型超详细教程》

基本上前文的项目开发实践都是基于YOLOv5来开发构建的，本文的主要目的是想要基于最新的YOLOv8模型来应用开发构建海底生物检测识别系统，为了实践分析模型的上限，这里我们首先选取的是YOLOv8系列最为轻量级的模型，探索分析轻量级模型的实际效果，如果轻量级模型效果不佳则后续考虑应用开发参数量更大的模型，首先看下实例效果：

如果对YOLOv8开发构建自己的目标检测项目有疑问的可以看下面的文章，如下所示：

《基于YOLOv8开发构建目标检测模型超详细教程【以焊缝质量检测数据场景为例】》

非常详细的开发实践教程。本文这里就不再展开了，因为从YOLOv8开始变成了一个安装包的形式，整体跟v5和v7的使用差异还是比较大的。

YOLOv8核心特性和改动如下：
1、提供了一个全新的SOTA模型（state-of-the-art model），包括 P5 640 和 P6 1280 分辨率的目标检测网络和基于YOLACT的实例分割模型。和 YOLOv5 一样，基于缩放系数也提供了 N/S/M/L/X 尺度的不同大小模型，用于满足不同场景需求
2、骨干网络和 Neck 部分可能参考了 YOLOv7 ELAN 设计思想，将 YOLOv5 的 C3 结构换成了梯度流更丰富的 C2f 结构，并对不同尺度模型调整了不同的通道数，属于对模型结构精心微调，不再是一套参数应用所有模型，大幅提升了模型性能。
3、Head 部分相比 YOLOv5 改动较大，换成了目前主流的解耦头结构，将分类和检测头分离，同时也从Anchor-Based 换成了 Anchor-Free
4、Loss 计算方面采用了TaskAlignedAssigner正样本分配策略，并引入了Distribution Focal Loss
5、训练的数据增强部分引入了 YOLOX 中的最后 10 epoch 关闭 Mosiac 增强的操作，可以有效地提升精度

简单看下实例数据情况：

实例数据标注内容如下所示：

0 0.109722 0.902469 0.136111 0.150617
1 0.210417 0.801235 0.1375 0.214815
1 0.125 0.723457 0.133333 0.251852
1 0.217361 0.603704 0.070833 0.135802
1 0.29375 0.651852 0.065278 0.128395
2 0.336111 0.876543 0.130556 0.241975
1 0.465278 0.87284 0.102778 0.259259
1 0.572222 0.807407 0.158333 0.276543
0 0.514583 0.503704 0.165278 0.553086
1 0.363194 0.717284 0.115278 0.185185
1 0.376389 0.583951 0.113889 0.165432
1 0.461806 0.635802 0.1125 0.185185
2 0.241667 0.488889 0.072222 0.128395
2 0.340972 0.467901 0.095833 0.145679
1 0.479861 0.401235 0.081944 0.145679
1 0.399306 0.346914 0.0875 0.125926
0 0.424306 0.262963 0.098611 0.155556
0 0.363194 0.293827 0.073611 0.222222
0 0.266667 0.193827 0.158333 0.209877
0 0.36875 0.139506 0.0625 0.22963
0 0.176389 0.351852 0.122222 0.160494
0 0.246528 0.150617 0.098611 0.212346
1 0.445833 0.108642 0.077778 0.123457
1 0.645833 0.516049 0.127778 0.237037
1 0.604167 0.288889 0.113889 0.202469
1 0.65 0.08642 0.133333 0.167901
0 0.825 0.334568 0.188889 0.367901
0 0.833333 0.209877 0.208333 0.316049
0 0.977083 0.25679 0.048611 0.133333
2 0.757639 0.193827 0.115278 0.224691
2 0.796528 0.035802 0.115278 0.066667
2 0.920139 0.07037 0.159722 0.135802

总数量体量在1.3w左右。

YOLOv8官方项目地址在这里，如下所示：

目前已经收获超过1.7w的star量了。官方提供的预训练模型如下所示：

Model	size (pixels)	mAPval 50-95	Speed CPU ONNX (ms)	Speed A100 TensorRT (ms)	params (M)	FLOPs (B)
YOLOv8n	640	37.3	80.4	0.99	3.2	8.7
YOLOv8s	640	44.9	128.4	1.20	11.2	28.6
YOLOv8m	640	50.2	234.7	1.83	25.9	78.9
YOLOv8l	640	52.9	375.2	2.39	43.7	165.2
YOLOv8x	640	53.9	479.1	3.53	68.2	257.8

另外一套预训练模型权重地址如下：

Model	size (pixels)	mAPpose 50-95	mAPpose 50	Speed CPU ONNX (ms)	Speed A100 TensorRT (ms)	params (M)	FLOPs (B)
YOLOv8n-pose	640	50.4	80.1	131.8	1.18	3.3	9.2
YOLOv8s-pose	640	60.0	86.2	233.2	1.42	11.6	30.2
YOLOv8m-pose	640	65.0	88.8	456.3	2.00	26.4	81.0
YOLOv8l-pose	640	67.6	90.0	784.5	2.59	44.4	168.6
YOLOv8x-pose	640	69.2	90.2	1607.1	3.73	69.4	263.2
YOLOv8x-pose-p6	1280	71.6	91.2	4088.7	10.04	99.1	1066.4

是基于Open Image V7数据集构建的，可以根据自己的需求进行选择使用即可。

YOLOv8的定位不仅仅是目标检测，而是性能强大全面的工具库，故而在任务类型上同时支持：姿态估计、检测、分类、分割、跟踪多种类型，可以根据自己的需要进行选择使用，这里就不再详细展开了。

简单的实例实现如下所示：

from ultralytics import YOLO

# yolov8n
model = YOLO('yolov8n.yaml').load('yolov8n.pt') # build from YAML and transfer weights
model.train(data='data/self.yaml', epochs=100, imgsz=640)

# yolov8s
model = YOLO('yolov8s.yaml').load('yolov8s.pt') # build from YAML and transfer weights
model.train(data='data/self.yaml', epochs=100, imgsz=640)

# yolov8m
model = YOLO('yolov8m.yaml').load('yolov8m.pt') # build from YAML and transfer weights
model.train(data='data/self.yaml', epochs=100, imgsz=640)

# yolov8l
model = YOLO('yolov8l.yaml').load('yolov8l.pt') # build from YAML and transfer weights
model.train(data='data/self.yaml', epochs=100, imgsz=640)

# yolov8x
model = YOLO('yolov8x.yaml').load('yolov8x.pt') # build from YAML and transfer weights
model.train(data='data/self.yaml', epochs=100, imgsz=640)

这里我们选择的是最为轻量级的n系列的模型来进行开发。

这里给出yolov8的模型文件如下：

# Parameters
nc: 4   # number of classes
scales: [0.33, 0.25, 1024]  


# YOLOv8.0n backbone
backbone:
  # [from, repeats, module, args]
  - [-1, 1, Conv, [64, 3, 2]]  # 0-P1/2
  - [-1, 1, Conv, [128, 3, 2]]  # 1-P2/4
  - [-1, 3, C2f, [128, True]]
  - [-1, 1, Conv, [256, 3, 2]]  # 3-P3/8
  - [-1, 6, C2f, [256, True]]
  - [-1, 1, Conv, [512, 3, 2]]  # 5-P4/16
  - [-1, 6, C2f, [512, True]]
  - [-1, 1, Conv, [1024, 3, 2]]  # 7-P5/32
  - [-1, 3, C2f, [1024, True]]
  - [-1, 1, SPPF, [1024, 5]]  # 9
 
# YOLOv8.0n head
head:
  - [-1, 1, nn.Upsample, [None, 2, 'nearest']]
  - [[-1, 6], 1, Concat, [1]]  # cat backbone P4
  - [-1, 3, C2f, [512]]  # 12
 
  - [-1, 1, nn.Upsample, [None, 2, 'nearest']]
  - [[-1, 4], 1, Concat, [1]]  # cat backbone P3
  - [-1, 3, C2f, [256]]  # 15 (P3/8-small)
 
  - [-1, 1, Conv, [256, 3, 2]]
  - [[-1, 12], 1, Concat, [1]]  # cat head P4
  - [-1, 3, C2f, [512]]  # 18 (P4/16-medium)
 
  - [-1, 1, Conv, [512, 3, 2]]
  - [[-1, 9], 1, Concat, [1]]  # cat head P5
  - [-1, 3, C2f, [1024]]  # 21 (P5/32-large)
 
  - [[15, 18, 21], 1, Detect, [nc]]  # Detect(P3, P4, P5)

等待训练完成后我们来看下n系列的模型结果详情。

【Precision曲线】
精确率曲线（Precision-Recall Curve）是一种用于评估二分类模型在不同阈值下的精确率性能的可视化工具。它通过绘制不同阈值下的精确率和召回率之间的关系图来帮助我们了解模型在不同阈值下的表现。
精确率（Precision）是指被正确预测为正例的样本数占所有预测为正例的样本数的比例。召回率（Recall）是指被正确预测为正例的样本数占所有实际为正例的样本数的比例。
绘制精确率曲线的步骤如下：
使用不同的阈值将预测概率转换为二进制类别标签。通常，当预测概率大于阈值时，样本被分类为正例，否则分类为负例。
对于每个阈值，计算相应的精确率和召回率。
将每个阈值下的精确率和召回率绘制在同一个图表上，形成精确率曲线。
根据精确率曲线的形状和变化趋势，可以选择适当的阈值以达到所需的性能要求。
通过观察精确率曲线，我们可以根据需求确定最佳的阈值，以平衡精确率和召回率。较高的精确率意味着较少的误报，而较高的召回率则表示较少的漏报。根据具体的业务需求和成本权衡，可以在曲线上选择合适的操作点或阈值。
精确率曲线通常与召回率曲线（Recall Curve）一起使用，以提供更全面的分类器性能分析，并帮助评估和比较不同模型的性能。

【Recall曲线】
召回率曲线（Recall Curve）是一种用于评估二分类模型在不同阈值下的召回率性能的可视化工具。它通过绘制不同阈值下的召回率和对应的精确率之间的关系图来帮助我们了解模型在不同阈值下的表现。
召回率（Recall）是指被正确预测为正例的样本数占所有实际为正例的样本数的比例。召回率也被称为灵敏度（Sensitivity）或真正例率（True Positive Rate）。
绘制召回率曲线的步骤如下：
使用不同的阈值将预测概率转换为二进制类别标签。通常，当预测概率大于阈值时，样本被分类为正例，否则分类为负例。
对于每个阈值，计算相应的召回率和对应的精确率。
将每个阈值下的召回率和精确率绘制在同一个图表上，形成召回率曲线。
根据召回率曲线的形状和变化趋势，可以选择适当的阈值以达到所需的性能要求。
通过观察召回率曲线，我们可以根据需求确定最佳的阈值，以平衡召回率和精确率。较高的召回率表示较少的漏报，而较高的精确率意味着较少的误报。根据具体的业务需求和成本权衡，可以在曲线上选择合适的操作点或阈值。

【F1值曲线】
F1值曲线是一种用于评估二分类模型在不同阈值下的性能的可视化工具。它通过绘制不同阈值下的精确率（Precision）、召回率（Recall）和F1分数的关系图来帮助我们理解模型的整体性能。F1分数是精确率和召回率的调和平均值，它综合考虑了两者的性能指标。F1值曲线可以帮助我们确定在不同精确率和召回率之间找到一个平衡点，以选择最佳的阈值。

【PR曲线】
精确率-召回率曲线（Precision-Recall Curve）是一种用于评估二分类模型性能的可视化工具。它通过绘制不同阈值下的精确率（Precision）和召回率（Recall）之间的关系图来帮助我们了解模型在不同阈值下的表现。
精确率是指被正确预测为正例的样本数占所有预测为正例的样本数的比例。召回率是指被正确预测为正例的样本数占所有实际为正例的样本数的比例。
绘制精确率-召回率曲线的步骤如下：
使用不同的阈值将预测概率转换为二进制类别标签。通常，当预测概率大于阈值时，样本被分类为正例，否则分类为负例。
对于每个阈值，计算相应的精确率和召回率。
将每个阈值下的精确率和召回率绘制在同一个图表上，形成精确率-召回率曲线。
根据曲线的形状和变化趋势，可以选择适当的阈值以达到所需的性能要求。
精确率-召回率曲线提供了更全面的模型性能分析，特别适用于处理不平衡数据集和关注正例预测的场景。曲线下面积（Area Under the Curve, AUC）可以作为评估模型性能的指标，AUC值越高表示模型的性能越好。
通过观察精确率-召回率曲线，我们可以根据需求选择合适的阈值来权衡精确率和召回率之间的平衡点。根据具体的业务需求和成本权衡，可以在曲线上选择合适的操作点或阈值。