【Datawhale AI 夏令营】CV竞赛 baseline 笔记

lawleit0x01

已于 2024-08-31 21:32:03 修改

阅读量407

点赞数 4

文章标签：人工智能笔记计算机视觉

于 2024-08-29 20:19:19 首次发布

本文链接：https://blog.csdn.net/lawleit0x01/article/details/141687570

版权

对YOLO模型的学习

物体检测是计算机视觉中的一个关键任务，它涉及到在图像或视频帧中识别并定位物体。YOLO（You Only Look Once）模型是一种高效的一阶段物体检测算法，它将检测任务简化为单个回归问题，直接从图像像素预测边界框坐标和类别概率。

YOLO模型的特点如下：

实时性：YOLO在一次网络评估中同时预测多个边界框和类别概率，大大提高了检测速度，适合实时应用场景。
网络结构：YOLO采用卷积神经网络（CNN）来提取图像特征，并通过这些特征预测边界框和类别概率。其网络结构包含多个卷积层和池化层。
置信度预测：YOLO为每个边界框预测一个置信度，这个置信度结合了目标存在的概率和预测框的准确性。

YOLO与两阶段模型（如Faster R-CNN）相比，省略了区域提议步骤，因此在速度上具有优势，但可能在精度上略有牺牲。YOLO系列自2015年推出以来，经历了多次迭代，每次迭代都在速度、准确性和计算效率上有所提升。

YOLO一直在改进，每一代都有新技术提出。

YOLO模型因其快速、高效的检测能力，在实时应用场景中具有显著优势。通过不断迭代和优化，YOLO系列模型在物体检测领域保持了其领先地位。选它就完了。

赛题思路分析

模型选择时需要考虑的点：

性能需求：模型是否能满足项目的实时性和准确性要求。
实现难度：模型的复杂性，是否容易理解和实现。
优化潜力：模型是否有持续更新的趋势，性能是否有提升空间。
社区支持：是否有活跃的社区，问题解决和资源获取是否方便。
灵活性：模型是否可以根据具体需求进行定制和调整。

YOLO的特点：

速度优势：YOLO专为实时检测设计，能够在保持较高精度的同时，提供快速的检测速度。
实现简单：YOLO的架构比较直观，对于像我这样的开发者来说，上手更快。
持续更新：YOLO自从推出以来，经过了多次迭代，性能一直在提升。
社区活跃：YOLO有一个庞大的开发者社区，资源丰富，遇到问题容易找到解决方案。
高度灵活：可以根据不同的应用场景调整模型结构，适应性很强。

其他模型的特点：

二阶段模型：如Faster R-CNN，通常精度较高，但检测速度相对较慢，因为它们分为区域提议和分类两个阶段。
单阶段模型：如SSD，也是实时检测的好选择，但在某些复杂场景下的性能可能不如YOLO。

实际场景中需要快速分析同时保证精度，YOLO就是最好的选择。

进阶思路

想获得更好的效果，无非从模型和数据两方面入手。

使用更多的数据：改变训练集规模。
选用更大的模型：换用同系列的yolov8l等模型尝试。

Task3 学习总结

第三部分的任务中介绍了三点，分别是数据集增强、设置训练参数和设置预测性能。

对于数据增强，我们尝试采用了Albumentations库。Albumentations是一个广泛应用于计算机视觉任务的图像增强库，它提供了丰富的图像预处理功能，能够有效提高模型的泛化能力和鲁棒性。以下是我们在项目中使用Albumentations的具体实践过程：

一、安装Albumentations库

首先，我们需要在项目中安装Albumentations库。通过以下命令，我们可以轻松完成安装：

pip install albumentations

二、导入所需模块

安装完成后，我们可以在Python代码中导入Albumentations库的相关模块：

import albumentations as A
import cv2

三、定义数据增强策略

接下来，我们需要定义数据增强策略。Albumentations提供了多种增强方法，如旋转、缩放、翻转、裁剪等。以下是一个简单的数据增强策略示例：

transform = A.Compose([
    A.RandomCrop(width=256, height=256),
    A.HorizontalFlip(p=0.5),
    A.VerticalFlip(p=0.5),
    A.RandomBrightnessContrast(p=0.2),
    A.Rotate(limit=30, p=0.8),
])

四、应用数据增强

在数据加载过程中，我们将定义好的数据增强策略应用于原始图像。以下是一个数据加载的示例：

def load_data(image_path, mask_path):
    image = cv2.imread(image_path)
    mask = cv2.imread(mask_path, cv2.IMREAD_GRAYSCALE)

    transformed = transform(image=image, mask=mask)
    augmented_image = transformed['image']
    augmented_mask = transformed['mask']

    return augmented_image, augmented_mask

五、训练模型

在模型训练过程中，我们使用经过数据增强的图像和标签进行训练。这样，模型可以学习到更多具有多样性的样本，提高其在不同场景下的表现。

for epoch in range(num_epochs):
    for image_path, mask_path in dataset:
        augmented_image, augmented_mask = load_data(image_path, mask_path)
        # 前向传播、反向传播等训练过程

对于训练参数，我们只调整了 imgsz 为 1024。

第三部分模型性能部分没做调整。