Datawhale AI 夏令营第五期视频物体检测 Task1- 跑通YOLO方案baseline-CSDN博客

数据收集与标注：首先需要收集城市管理相关的视频数据，并对违规行为如机动车违停、非机动车违停等进行标注。可以使用标注工具如Labelme或LabelImg来辅助完成标注工作，生成用于训练的标注文件。
选择物体检测模型：可以选择YOLO（You Only Look Once）系列的物体检测模型，例如YOLOv10，它在目标检测领域实现了重大飞跃，特别是在精确定位和识别图像和视频中的物体方面表现出色。
模型训练：使用标注好的数据集对选定的模型进行训练。YOLOv10等模型可以通过一些开源项目如ultralytics进行训练和部署。
视频流处理：智能识别系统需要能够处理实时视频流。可以使用OpenCV库对视频帧进行预处理，然后使用训练好的YOLO模型进行目标检测。
违规行为分析：检测到的物体需要与城市管理的规则进行比对，判断是否存在违规行为。这可能需要结合特定场景的逻辑判断或额外的机器学习模型来实现行为识别。
系统集成与测试：将上述功能集成到一个系统中，并进行充分的测试，确保系统能够在实际场景中稳定运行并准确识别违规行为。

2.YOLO模型

物体检测模型：物体检测模型有多种，包括但不限于YOLO系列、SSD（Single-shot Detector）、R-CNN（基于区域的卷积神经网络）等。每种模型都有其特点和适用场景。

YOLO（You Only Look Once）是一种特别受欢迎的物体检测模型，因为它在实现快速检测的同时，也能保持相对较高的准确率。YOLO模型通过单次前向传播即可预测图像中的物体位置和类别，与传统的滑动窗口或区域提议网络相比，大大减少了计算量和检测时间。YOLO模型的设计理念是速度和准确性的平衡，使其适用于需要实时处理的场景，如视频监控、自动驾驶等。

YOLO系列模型从YOLOv1到最新的YOLOv9经历了多次迭代和改进。YOLOv5是该系列中的一个里程碑，以其易用性、稳健的性能和灵活性著称，引入了多项关键创新，比如跨阶段部分网络（CSP）和自动数据增强技术，使其在边缘部署场景中得到了广泛采用。YOLOv8进一步推动了技术边界，采用了减少计算开销的创新方法，同时保持了高准确性。YOLOv9则是YOLO系列的最新版本，于2024年发布，虽然具体细节未在搜索结果中提及，但可以预见其在性能和效率上会有进一步的提升。

根据不同的应用场景和硬件限制，YOLO提供了不同规模的模型，如YOLOv5s、YOLOv5m、YOLOv5l、YOLOv5x，它们在速度和准确性之间提供了不同的权衡。YOLOv5n是专为Nano设备优化的版本，保持了较快的速度，同时提供适用于边缘设备的准确度。

二、小白零基础 30 分钟速通指南

Step1：报名赛事

赛事链接：https://www.marsbigdata.com/competition/details?id=3839107548872（报名需填写Datawhale）

Step2：领取厚德云支持的GPU在线算力

厚德云链接：https://portal.houdeyun.cn/register?from=Datawhale

注册厚德云平台（点击跳转注册）
租用4090！（点击跳转机器管理界面）
在创建中选择右列第二个，image-gpu-pytorch_20240807 镜像

Step3：30分钟体验baseline！

1.下载baseline相关文件

复制如下命令，在终端中执行

apt install git-lfs
git lfs install
git clone https://www.modelscope.cn/datasets/Datawhale/AI_Camp5_baseline_CV.git

2.一键运行 baseline（大约需要25分钟）

3.下载结果文件 result.zip

4.GPU使用完成后关机

Step4：上传提交结果到比赛网站

评分大概需要 2 分钟，评分结束后可以在【结果提交】看到评分结果。

每天可提交 3 次，如果格式不正确会评分失败，但也会消耗提交次数。

三、baseline代码初步学习

1.数据读取

train_anno = json.load(open('训练集(有标注第一批)/标注/45.json', encoding='utf-8'))
train_anno[0], len(train_anno)

运行结果：

pd.read_json('训练集(有标注第一批)/标注/45.json')

运行结果：

video_path = '训练集(有标注第一批)/视频/45.mp4'
cap = cv2.VideoCapture(video_path)
while True:
    # 读取下一帧
    ret, frame = cap.read()
    if not ret:
        break
    break    

frame.shape
int(cap.get(cv2.CAP_PROP_FRAME_COUNT))

bbox = [746, 494, 988, 786]

pt1 = (bbox[0], bbox[1])
pt2 = (bbox[2], bbox[3])

color = (0, 255, 0) 
thickness = 2  # 线条粗细

cv2.rectangle(frame, pt1, pt2, color, thickness)

frame = cv2.cvtColor(frame, cv2.COLOR_BGR2RGB)
plt.imshow(frame)

运行结果：

<matplotlib.image.AxesImage at 0x7f4f5f27afe0>

2.数据转换

if not os.path.exists('yolo-dataset/'):
    os.mkdir('yolo-dataset/')
if not os.path.exists('yolo-dataset/train'):
    os.mkdir('yolo-dataset/train')
if not os.path.exists('yolo-dataset/val'):
    os.mkdir('yolo-dataset/val')

dir_path = os.path.abspath('./') + '/'

# 需要按照你的修改path
with open('yolo-dataset/yolo.yaml', 'w', encoding='utf-8') as up:
    up.write(f'''
path: {dir_path}/yolo-dataset/
train: train/
val: val/

names:
    0: 非机动车违停
    1: 机动车违停
    2: 垃圾桶满溢
    3: 违法经营
''')

train_annos = glob.glob('训练集(有标注第一批)/标注/*.json')
train_videos = glob.glob('训练集(有标注第一批)/视频/*.mp4')
train_annos.sort(); train_videos.sort();

category_labels = ["非机动车违停", "机动车违停", "垃圾桶满溢", "违法经营"]

# 读取训练集视频
for anno_path, video_path in zip(train_annos[:5], train_videos[:5]):
    print(video_path)
    anno_df = pd.read_json(anno_path)
    cap = cv2.VideoCapture(video_path)
    frame_idx = 0 
    # 读取视频所有画面
    while True:
        ret, frame = cap.read()
        if not ret:
            break

        img_height, img_width = frame.shape[:2]
        
        # 将画面写为图
        frame_anno = anno_df[anno_df['frame_id'] == frame_idx]
        cv2.imwrite('./yolo-dataset/train/' + anno_path.split('/')[-1][:-5] + '_' + str(frame_idx) + '.jpg', frame)

        # 如果存在标注
        if len(frame_anno) != 0:
            with open('./yolo-dataset/train/' + anno_path.split('/')[-1][:-5] + '_' + str(frame_idx) + '.txt', 'w') as up:
                for category, bbox in zip(frame_anno['category'].values, frame_anno['bbox'].values):
                    category_idx = category_labels.index(category)
                    
                    # 计算yolo标注格式
                    x_min, y_min, x_max, y_max = bbox
                    x_center = (x_min + x_max) / 2 / img_width
                    y_center = (y_min + y_max) / 2 / img_height
                    width = (x_max - x_min) / img_width
                    height = (y_max - y_min) / img_height

                    if x_center > 1:
                        print(bbox)
                    up.write(f'{category_idx} {x_center} {y_center} {width} {height}\n')
        
        frame_idx += 1

运行结果：

for anno_path, video_path in zip(train_annos[-3:], train_videos[-3:]):
    print(video_path)
    anno_df = pd.read_json(anno_path)
    cap = cv2.VideoCapture(video_path)
    frame_idx = 0 
    while True:
        ret, frame = cap.read()
        if not ret:
            break

        img_height, img_width = frame.shape[:2]
        
        frame_anno = anno_df[anno_df['frame_id'] == frame_idx]
        cv2.imwrite('./yolo-dataset/val/' + anno_path.split('/')[-1][:-5] + '_' + str(frame_idx) + '.jpg', frame)

        if len(frame_anno) != 0:
            with open('./yolo-dataset/val/' + anno_path.split('/')[-1][:-5] + '_' + str(frame_idx) + '.txt', 'w') as up:
                for category, bbox in zip(frame_anno['category'].values, frame_anno['bbox'].values):
                    category_idx = category_labels.index(category)
                    
                    x_min, y_min, x_max, y_max = bbox
                    x_center = (x_min + x_max) / 2 / img_width
                    y_center = (y_min + y_max) / 2 / img_height
                    width = (x_max - x_min) / img_width
                    height = (y_max - y_min) / img_height

                    up.write(f'{category_idx} {x_center} {y_center} {width} {height}\n')
        
        frame_idx += 1

运行结果：

!wget http://mirror.coggle.club/yolo/yolov8n-v8.2.0.pt -O yolov8n.pt

运行结果：

!mkdir -p ~/.config/Ultralytics/
!wget http://mirror.coggle.club/yolo/Arial.ttf -O ~/.config/Ultralytics/Arial.ttf

运行结果：

import os
os.environ["CUDA_VISIBLE_DEVICES"] = "0"

import warnings
warnings.filterwarnings('ignore')


from ultralytics import YOLO
model = YOLO("yolov8n.pt")
results = model.train(data="yolo-dataset/yolo.yaml", epochs=2, imgsz=1080, batch=16)

运行结果：

其中：

box_loss 是边界框回归损失，用于评估预测的边界框与真实边界框之间的差异。
cls_loss 是分类损失，用于评估类别预测的准确性。
dfl_loss 是防御性损失，用于提高模型的泛化能力。

从输出结果来看，经过两个训练周期后，模型的边界框损失、分类损失和防御性损失都有所下降，这表明模型在训练过程中学习了如何更好地预测边界框和分类。同时，模型的 mAP50 和 mAP50-95 指标也有所提高，这表明模型的整体性能有所提升。

3.心得与后续改进思路

心得：初步接触YOLOv8模型，我被其在物体检测领域的先进性和高效性所吸引。通过学习，我了解到YOLOv8不仅继承了YOLO系列速度快、易于实现的特点，还通过技术创新在准确性上取得了显著提升。在实践中，我体验到了模型训练过程中对数据质量和超参数敏感性的重要性，这让我认识到了构建一个高效物体检测系统所需的精细调整和优化。此外，我也意识到了在实际应用中需要考虑的计算资源限制和模型泛化能力。这次Task1学习经历不仅加深了我对深度学习在计算机视觉中应用的理解，也激发了我进一步探索和实验不同改进策略以提高模型性能的兴趣。

思路：为了在后面Task2和Task3中继续提高YOLOv8模型的精度，经过学习我初步认为可以采取以下改进策略：

1. 数据增强：通过应用旋转、平移、翻转、缩放等技术增加数据多样性，提高模型的泛化能力。

2. 超参数优化：使用网格搜索、随机搜索或贝叶斯优化等自动化工具来寻找最佳的超参数组合，如学习率和正则化参数。

3. 修改损失函数：根据具体任务尝试使用更适合的损失函数，如Focal Loss或IoU Loss，以提高检测准确性。

4. 网络架构优化：通过添加卷积层或调整卷积层大小来改进模型的特征提取能力。

5. 后处理技术：使用非极大值抑制（NMS）和边界框回归等技术来过滤冗余检测结果并微调检测框。