Datawhale AI 夏令营第五期从零上手CV竞赛学习者 Task03-CSDN博客

本文链接：https://blog.csdn.net/2401_83193440/article/details/141759147

上分思路——数据集增强与模型预测

在之前我们学习了 YOLO 模型的基础使用，接下来将学习进阶的知识。

一：数据集增强

1.数据增强是机器学习和深度学习中常用的技术，用于通过从现有数据集中生成新的训练样本来提高模型的泛化能力。干净一致的数据对于创建性能良好的模型至关重要。

2.常见的增强技术包括翻转、旋转、缩放和颜色调整。

数据增强方法	描述
Mosaic Augmentation	将四张训练图像组合成一张，增加物体尺度和位置的多样性。
Copy-Paste Augmentation	复制一个图像的随机区域并粘贴到另一个图像上，生成新的训练样本。
Random Affine Transformations	包括图像的随机旋转、缩放、平移和剪切，增加对几何变换的鲁棒性。
MixUp Augmentation	通过线性组合两张图像及其标签创造合成图像，增加特征空间的泛化。
Albumentations	一个支持多种增强技术的图像增强库，提供灵活的增强管道定义。
HSV Augmentation	对图像的色相、饱和度和亮度进行随机变化，改变颜色属性。
Random Horizontal Flip	沿水平轴随机翻转图像，增加对镜像变化的不变性。

3.多个库，例如 Albumentations、Imgaug 和 TensorFlow的 ImageDataGenerator，可以生成这些增强。

4.一个卷积神经网络，如果能够对物体即使它放在不同的地方也能稳健的分类，就被称为具有不变性的属性。更具体的，CNN可以对移位（translation）、视角（viewpoint）、大小（size）、照明（illumination）（或者以上的组合）具有不变性。这本质上是数据增强的前提。在现实场景中，我们可能会有一批在有限场景中拍摄的数据集。但是我们的目标应用可能存在于不同的条件，比如在不同的方向、位置、缩放比例。

5.下图是一个数据集增强的效果示例，针对原有数据集进行了翻转、随机拼贴、剪切等处理

二：设置 YOLO 模型训练参数

1.YOLO 模型的训练设置包括多种超参数和配置，这些设置会影响模型的性能、速度和准确性。微调涉及采用预先训练的模型并调整其参数以提高特定任务或数据集的性能。

2.在初始训练时期，学习率从低开始，逐渐增加以稳定训练过程。在 YOLO 中绝大部分参数都可以使用默认值。

3.imgsz: 训练时的目标图像尺寸，所有图像在此尺寸下缩放。

save_period: 保存模型检查点的频率（周期数），-1 表示禁用。

device: 用于训练的计算设备，可以是单个或多个 GPU，CPU 或苹果硅的 MPS。

optimizer: 训练中使用的优化器，如 SGD、Adam 等，或 'auto' 以根据模型配置自动选择。momentum: SGD 的动量因子或 Adam 优化器的 beta1。

warmup_epochs: 学习率预热的周期数。

warmup_momentum: 预热阶段的初始动量。

warmup_bias_lr: 预热阶段偏置参数的学习率。

4.在YOLOv5及其后续版本中，imgsz可以被设置为一个整数，用于训练和验证模式，表示将输入图像调整为正方形的尺寸，例如imgsz=640意味着图像将被调整为640x640像素。

对于预测和导出模式，imgsz可以被设置为一个列表，包含宽度和高度，例如imgsz=[640, 480]，表示图像将被调整为640像素宽和480像素高。

三：设置 YOLO 模型预测行为和性能

来看看YOLOv8n的代码

from ultralytics import YOLO

# Load a model
model = YOLO("yolov8n.pt")  # pretrained YOLOv8n model

# Run batched inference on a list of images
results = model(["im1.jpg", "im2.jpg"])  # return a list of Results objects

# Process results list
for result in results:
    boxes = result.boxes  # Boxes object for bounding box outputs
    masks = result.masks  # Masks object for segmentation masks outputs
    keypoints = result.keypoints  # Keypoints object for pose outputs
    probs = result.probs  # Probs object for classification outputs
    obb = result.obb  # Oriented boxes object for OBB outputs
    result.show()  # display to screen
    result.save(filename="result.jpg")  # save to disk

YOLOv8模型的使用者提供了灵活性，允许根据特定应用场景的需求调整模型的行为和性能。