Datawhale AI夏令营 CV方向 Task1:跑通YOLO方向baseline!

最新推荐文章于 2024-08-24 18:32:20 发布

#FFFF00的多多

最新推荐文章于 2024-08-24 18:32:20 发布

阅读量410

点赞数 7

文章标签：人工智能 YOLO 笔记 python

本文链接：https://blog.csdn.net/2301_79882657/article/details/141492882

版权

赛题最终目标：开发一智能识别系统，用于自动套检测和分类城市管理中的违规行为

赛事链接：2024“大运河杯”数据开发应用创新大赛——城市治理赛道(点击跳转赛事官网)

一、赛题解读

赛题目标：利用图像处理和计算机视觉技术 开发一套智能识别系统，自动检测和分类摄像头捕获的视频中，城市管理中的违规行为

社会价值：通过对摄像头捕获的视频进行分析，自动准确识别违规行为，并及时向管理部门发出告警，以实现更高效的城市管理。

数据集等赛事资源分析

初赛提供城管视频监控数据与对应违规行为标注。违规行为包括垃圾桶满溢、机动车违停、非机动车违停等。视频数据为mp4格式，标注文件为json格式，每个视频对应一个json文件。

frame_id：违规行为出现的帧编号
event_id：违规行为ID
category：违规行为类别
bbox：检测到的违规行为矩形框的坐标，[xmin,ymin,xmax,ymax]形式

评分规则介绍

分数越高越好使用F1score、MOTA指标来评估模型预测结果。

对每个json文件得到两个指标的加权求和，最终得分为所有文件得分取均值。

注1：若真实目标框与预测框IOU大于0.5，则判定目标正确识别。若MOTA指标为负，则该类别精度得分为0。

注2：若该视频中没有某个类别的目标，则此类别计算均值时，忽略该视频。

二、精读baseline代码

Q：什么是YOLO？什么是物体检测模型？

YOLO，全称为“You Only Look Once”（你只看一眼），是一种流行的实时目标检测系统，由Joseph Redmon等人在2015年提出。YOLO模型的核心思想是将目标检测任务视为一个单一的回归问题，通过一个卷积神经网络（CNN）直接从图像像素到边界框坐标和类别概率的映射。YOLO模型经过了多次迭代，包括YOLOv2（YOLO9000）、YOLOv3和YOLOv4等版本，每个版本都在性能和速度上有所提升，同时也引入了一些新的技术，如更深的网络结构、更好的锚框机制、多尺度特征融合等。

Q:YOLO模型需要什么训练格式？

YOLO使用的标注格式是每张图像一个文本文件，文件名与图像文件名相对应。文本文件中每一行对应一个边界框，格式为：<class> <x_center> <y_center> <width> <height>。

其中，<class>是类别索引，<x_center>和<y_center>是边界框中心点相对于图像宽度和高度的比例，<width>和<height>是边界框的宽度和高度相对于图像宽度和高度的比例。

# 读取训练集视频
for anno_path, video_path in zip(train_annos[:5], train_videos[:5]):
    print(video_path)
    anno_df = pd.read_json(anno_path)
    cap = cv2.VideoCapture(video_path)
    frame_idx = 0 
    # 读取视频所有画面
    while True:
        ret, frame = cap.read()
        if not ret:
            break

        img_height, img_width = frame.shape[:2]
        
        # 将画面写为图
        frame_anno = anno_df[anno_df['frame_id'] == frame_idx]
        cv2.imwrite('./yolo-dataset/train/' + anno_path.split('/')[-1][:-5] + '_' + str(frame_idx) + '.jpg', frame)

        # 如果存在标注
        if len(frame_anno) != 0:
            with open('./yolo-dataset/train/' + anno_path.split('/')[-1][:-5] + '_' + str(frame_idx) + '.txt', 'w') as up:
                for category, bbox in zip(frame_anno['category'].values, frame_anno['bbox'].values):
                    category_idx = category_labels.index(category)
                    
                    # 计算yolo标注格式
                    x_min, y_min, x_max, y_max = bbox
                    x_center = (x_min + x_max) / 2 / img_width
                    y_center = (y_min + y_max) / 2 / img_height
                    width = (x_max - x_min) / img_width
                    height = (y_max - y_min) / img_height

                    if x_center > 1:
                        print(bbox)
                    up.write(f'{category_idx} {x_center} {y_center} {width} {height}\n')
        
        frame_idx += 1

Q:如何训练YOLO模型？

Ultraalytics 是一个提供多种计算机视觉模型的库，包括 YOLO 系列。这段代码是一个简单的训练启动示例。

from ultralytics import YOLO

# 设置模型版本
model = YOLO("yolov8n.pt") 

# 设定数据集和训练参数
results = model.train(data="yolo-dataset/yolo.yaml", epochs=2, imgsz=1080, batch=16)

训练日志如下：

box_loss 是边界框回归损失，用于评估预测的边界框与真实边界框之间的差异。
cls_loss 是分类损失，用于评估类别预测的准确性。
dfl_loss 是防御性损失，用于提高模型的泛化能力。

从输出结果来看，经过两个训练周期后，模型的边界框损失、分类损失和防御性损失都有所下降，这表明模型在训练过程中学习了如何更好地预测边界框和分类。同时，模型的 mAP50 和 mAP50-95 指标也有所提高，这表明模型的整体性能有所提升。

参考资料

YOLO指南

#FFFF00的多多

关注

7
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
Datawhale AI夏令营 CV方向 Task1:跑通YOLO方向baseline!

分数越高越好使用F1score、MOTA指标来评估模型预测结果。对每个json文件得到两个指标的加权求和，最终得分为所有文件得分取均值。注1：若真实目标框与预测框IOU大于0.5，则判定目标正确识别。若MOTA指标为负，则该类别精度得分为0。注2：若该视频中没有某个类别的目标，则此类别计算均值时，忽略该视频。
复制链接

扫一扫