【Datawhale TASK2】YOLO模型详解及优化

教程

赛题本身

一、赛题描述

随着城市化步伐的加速迈进,城市治理面临着前所未有的挑战与机遇。城市管理的精细化、智能化已成为全球城市追求卓越的关键路径。然而,机动车违停、非机动车违停、占道经营等城市违规行为如同现代都市肌体上的疮疤,不仅侵蚀着城市的美学与秩序,更对公众福祉构成了潜在威胁。传统的人力巡查与被动响应模式,已然无法匹配当今城市治理的需求。

本赛题最终目标是开发一套智能识别系统,能够自动检测和分类城市管理中的违规行为。该系统应利用先进的图像处理和计算机视觉技术,通过对摄像头捕获的视频进行分析,自动准确识别违规行为,并及时向管理部门发出告警,以实现更高效的城市管理。

二、赛题题目

城市管理违规行为智能识别

三、赛题任务

  • 【初赛】

初赛任务是根据给定的城管视频监控数据集,进行城市违规行为的检测。违规行为主要包括垃圾桶满溢、机动车违停、非机动车违停等。

选手需要能够从视频中分析并标记出违规行为,提供违规行为发生的时间和位置信息。

  • 【初赛审核】

阶段时间:9月13日-9月19日 前24名晋级复赛,如出现违规行为,则顺延晋级,由组委会确认晋级名单。

  • 【复赛】

复赛任务是根据给定的城管视频监控数据集,进行城市违规行为的检测。违规行为主要包括违法经营、垃圾桶满溢、机动车违停、非机动车违停等。

选手需要基于大赛提供的复赛环境,进行复赛模型构建与预测,同时复赛数据集对选手不可见。

  • 【复赛审核】

阶段时间:9月18日-9月30日 前12名晋级决赛,如出现违规行为,则顺延晋级,由组委会确认晋级名单。

  • 【决赛】

具体时间待定,决赛阶段采用线下或者线上答辩的方式(待定),晋级决赛队伍需要提前准备答辩PPT及相关支撑材料,评委将根据选手的初复赛及答辩表现进行综合评分,决定最终排名。

四、数据描述

  • 【初赛】

初赛提供城管视频监控数据与对应违规行为标注。违规行为包括垃圾桶满溢、机动车违停、非机动车违停等。

视频数据为mp4格式,标注文件为json格式,每个视频对应一个json文件。

json文件的内容是每帧检测到的违规行为,包括以下字段:

  • frame_id:违规行为出现的帧编号
  • event_id:违规行为ID
  • category:违规行为类别
  • bbox:检测到的违规行为矩形框的坐标,[xmin,ymin,xmax,ymax]形式

标注示例如下:

[
  {
   "frame_id": 20,
   "event_id": 1,
   "category": "机动车违停",
   "bbox": [200, 300, 280, 400]
  },
  {
   "frame_id": 20,
   "event_id": 2,
   "category": "机动车违停",
   "bbox": [600, 500, 720, 560]
  },
  {
   "frame_id": 30,
   "event_id": 3,
   "category": "垃圾桶满溢",
   "bbox": [400, 500, 600, 660]
  }
 ]

违规行为示例如下:

~

垃圾桶满溢

在这里插入图片描述

机动车违停

在这里插入图片描述

非机动车违停

  • 【复赛】

复赛提供城管视频监控数据与对应违规行为标注。违规行为包括违法经营、垃圾桶满溢、机动车违停、非机动车违停等。

数据与初赛数据格式相同,新增违法经营类别,行为示例如下:

在这里插入图片描述

违法经营

五、评估指标

  • 【初赛】

使用F1score、MOTA指标来评估模型预测结果。

在这里插入图片描述

对每个json文件得到两个指标的加权求和,最终得分为所有文件得分取均值。

注1:若真实目标框与预测框IOU大于0.5,则判定目标正确识别。若MOTA指标为负,则该类别精度得分为0。

注2:若该视频中没有某个类别的目标,则此类别计算均值时,忽略该视频。

  • 【复赛】

复赛需同时评估模型的准确度与效率。

模型准确率评估指标与初赛一致,使用F1score、MOTA进行评估。

模型效率使用FPS(每秒钟能够处理的帧数)等进行评估。

六、提交说明

  • 【初赛】

选手需要生成result文件夹,文件夹中包含每个视频对应的json结果文件,文件名与视频名对应。选手需要将文件夹打包成result.zip进行上传。

json文件中包含了检测到的违规行为列表,若未检测到违规行为,则列表为空。

每个违规行为包含的字段如下:

  • frame_id:违规行为出现的帧编号
  • event_id:违规行为ID
  • category:违规行为类别
  • bbox:检测到的违规行为矩形框的坐标,[xmin,ymin,xmax,ymax]形式
  • confidence:置信度

提交的json示例如下:

[
  {
   "frame_id": 20,
   "event_id": 1,
   "category": "机动车违停",
   "bbox": [200, 300, 280, 500],
   "confidence": 0.85
  },
  {
   "frame_id": 20,
   "event_id": 2,
   "category": "垃圾桶满溢",
   "bbox": [600, 500,720, 560],
   "confidence": 0.90
  },
  {
   "frame_id": 30,
   "event_id": 3,
   "category": "垃圾桶满溢",
   "bbox": [400, 500, 500, 560],
   "confidence": 0.78
  }
 ]

注:赛题禁止对测试集数据进行人工标注,用于训练或结果提交。初赛审核阶段,会对此类情况严格审核,一经发现,即取消复赛晋级资格。

  • 【复赛】

复赛与初赛的提交内容一致。

注:复赛阶段的训练集与测试集对选手不可见,选手在模型开发调试阶段时使用的数据是一部分样例数据,提交代码后,后台系统将自动使用复赛全量数据进行复现评测。

七、违法标准

【机动车违停】

机动车在设有禁止停车标志、标线的路段停车,或在非机动车道、人行横道、施工地段等禁止停车的地方停车。具体包含以下:

1、无论有无禁停标志,机动车道禁止车辆停放;

2、距路口、桥梁50米以内禁止车辆停放;

3、距公交车站、消防栓、消防队、医院30米以内禁止使用上述设施以外的车辆停放;

4、禁止车辆双排停放、靠左侧停放、横向停放、逆向停放;

5、人行道仅允许在已设置的停车泊位内停车,禁止在停车泊位外停车;

6、在设有禁停标志、标线的路段,人行横道、施工路段,不得停车。

【非机动车违停】

非机动车(如自行车、‌电动车等)‌未按照规定停放在指定的非机动车停车泊位或停车线内,‌而是在非机动车禁停区域或未划定的区域(消防通道、盲道、非机动车停车区线外、机动车停车区等)随意停放。

【垃圾满溢】

生活垃圾收集容器内垃圾超过三分之二以上即为满溢。垃圾桶无法封闭、脏污且周边有纸屑、污渍、塑料、生活垃圾及杂物堆放。

【占道经营】

经营者占用城市道路、桥梁、城市广场等公共场所进行盈利性买卖商品或服务的行为。

YOLO

YOLO模型介绍

物体检测是计算机视觉领域的一个重要任务,它的目标是在图像或视频帧中识别和定位感兴趣的物体。物体检测算法不仅要识别图像中的对象属于哪个类别,还要确定它们在图像中的具体位置,通常以边界框(bounding box)的形式表示。以下是物体检测的一些关键概念和步骤:

  1. 输入:物体检测算法的输入通常是一张图像或视频帧。
  2. 特征提取:算法使用深度学习模型(如卷积神经网络CNN)来提取图像的特征。这些特征捕捉了图像中的视觉信息,为后续的物体识别和定位提供基础。
  3. 候选区域生成:在某些检测算法中,如基于区域的卷积神经网络(R-CNN)及其变体,首先需要生成图像中的候选区域,这些区域可能包含感兴趣的物体。
  4. 区域分类和边界框回归:对于每个候选区域,算法需要判断它是否包含特定类别的物体,并预测物体的边界框。这通常涉及到分类任务和回归任务的结合。
  5. 非极大值抑制(NMS):在检测过程中,可能会产生多个重叠的边界框,用于表示同一物体。NMS是一种常用的技术,用于选择最佳的边界框并去除多余的框。

物体检测算法主要分为两类:One-Stage(一阶段)和Two-Stage(两阶段)模型。

在这里插入图片描述

  • One-Stage模型,如YOLO(You Only Look Once)和SSD(Single Shot Detection),直接在单次网络评估中预测图像中所有物体的类别和位置信息。这种方法的优点是速度快,适合实时应用,但可能在精度上不如Two-Stage模型 。
  • Two-Stage模型,如Faster R-CNN,首先使用区域提议网络(Region Proposal Network, RPN)生成候选区域,然后对这些区域进行分类和边界框的精细调整。这种方法的优点是精度高,但速度相对较慢 。

One-Stage模型通常在单个卷积网络中同时预测类别和位置,而Two-Stage模型则将检测任务分解为两个阶段:区域提议和候选区域的分类与定位。One-Stage模型因为省略了区域提议步骤,所以能够实现更快的检测速度,但这可能会以牺牲一些精度为代价。相比之下,Two-Stage模型通过两步过程提高了检测的准确性,但同时也增加了计算的复杂性和时间消耗 。

在实际应用中,选择哪种模型取决于特定场景的需求。如果对速度有较高要求,如视频流处理或实时监控,One-Stage模型可能更合适。如果对精度有更高要求,如在需要高精度识别的科研或专业领域,Two-Stage模型可能更加适用 。

YOLO,全称为"You Only Look Once",是一种流行的实时目标检测算法,由Joseph Redmon等人于2015年首次提出。YOLO的核心思想是将目标检测任务视为一个单一的回归问题,直接从图像像素到边界框坐标和类别概率的映射。这种设计使得YOLO能够以非常快的速度进行目标检测,同时保持较高的精度,特别适合需要实时处理的应用场景。

  1. YOLO算法的一个显著特点是它在单个网络评估中同时预测多个边界框和类别概率,而不是像传统的滑动窗口方法那样多次评估。
  2. YOLO使用一个卷积神经网络(CNN)来提取图像特征,然后使用这些特征来预测边界框和类别概率。YOLO的网络结构通常包括多个卷积层和池化层。
  3. YOLO为每个边界框预测一个置信度,这个置信度反映了边界框包含目标的概率以及预测的类别。置信度的计算公式是:Pr(Object) * IOU(pred, truth),其中Pr(Object)表示格子中存在目标的概率,IOU(pred, truth)表示预测框和真实框的交并比。【训练阶段使用这个公式!】

YOLO(You Only Look Once)是一种革命性的目标检测算法,以其快速和高效的性能而闻名。自2015年YOLOv1的首次推出以来,YOLO系列已经经历了多次迭代,每一次迭代都在速度、准确性和计算效率方面做出了显著的贡献。

YOLO数据集格式

YOLO算法的标注格式主要使用.txt文件来存储图像中物体的标注信息。每个图像都有一个对应的.txt文件,文件中的每行表示一个物体的标注,包括物体的类别索引和边界框(bounding box)的坐标。以下是YOLO标注格式的详细介绍:

  1. 类别索引:每个物体的类别由一个整数索引表示,索引对应于预先定义的类别列表。
  2. 边界框坐标:边界框由其中心点坐标(x_center, y_center)和宽度width、高度height组成。这些值通常是归一化到图像宽度和高度的比例值,范围在0到1之间。
  3. 坐标格式:边界框坐标通常按照[class_index x_center y_center width height]的格式记录,其中class_index是类别索引,x_centery_center是边界框中心点的x和y坐标,widthheight是边界框的宽度和高度。

在这里插入图片描述

在YOLO的训练过程中,这样的配置文件允许用户轻松地指定数据集的位置和类别信息,从而无需硬编码在训练脚本中。具体来说,这段配置的含义如下:

# Train/val/test sets as 1) dir: path/to/imgs, 2) file: path/to/imgs.txt, or 3) list: [path/to/imgs1, path/to/imgs2, ..]

path: ../dataset/  # dataset root dir
train: images/train/  # train images (relative to 'path') 128 images
val: images/val/  # train images (relative to 'path') 128 images

# Classes
nc: 2  # number of classes
names: ["0", '1']  # class names

YOLO 训练日志

在使用YOLO进行训练时,生成的exp/detect/train类型的文件夹是训练过程中的一个关键组成部分。

  • 模型权重 (.pt.pth 文件): 训练过程中保存的模型权重,可以用于后续的测试或继续训练。
  • 日志文件 (.log 文件): 包含训练过程中的所有输出信息,如损失值、精度、速度等。
  • 配置文件 (.yaml.cfg 文件): 训练时使用的配置文件副本,记录了数据路径、类别名、模型架构等设置。
  • 图表和可视化: 有时YOLO会生成训练过程中的性能图表,如损失曲线、精度曲线等。
  • 测试结果: 如果训练过程中包括了测试阶段,可能会有测试结果的保存,如检测结果的图片或统计数据。
  1. F1_curve.png, PR_curve.png, P_curve.png, R_curve.png: 包含模型性能的不同评估指标曲线图,如F1分数(F1_curve.png)、精确率-召回率曲线(PR_curve.png)、精确率(P_curve.png)和召回率(R_curve.png)。
  2. results.csv: 一个CSV文件,包含模型训练或测试的结果数据。
  3. results.png: 包含训练结果的汇总图表或图像。
  4. train_batch.jpg: 包含训练过程中不同批次的图像和它们的标注。
  5. val_batch0_labels.jpg, val_batch0_pred.jpg: 验证集批次的图像,可能包含真实标签(labels)和模型预测(pred)的可视化。
  6. weights/: 一个目录,通常包含模型训练过程中保存的权重文件,如.pt.pth文件。

在训练过程中和训练完成后,都可以查看训练日志。可以优先查看results.png,图像的内容类似如下。从验证集上的损失 (val/box_loss, val/cls_loss, val/dfl_loss) 和性能指标可以评估模型在未见数据上的泛化能力。在下面的训练日志中,我们发现模型在验证集发生了过拟合。

缩写作用描述
epoch表示模型在整个训练数据集上进行了一次前向和后向传播的完整周期。
train/box_loss衡量模型预测的边界框与真实边界框之间差异的损失值。
train/cls_loss衡量模型预测的类别与真实类别之间差异的损失值。
train/dfl_loss衡量模型对难分类样本的关注程度,减少易分类样本的影响。
metrics/precision(B)在训练过程中,预测为正类别中实际为正类别的比例。
metrics/recall(B)在训练过程中,所有实际正类别中被模型正确预测为正类别的比例。
metrics/mAP50(B)在50%的IoU阈值下计算,衡量模型的整体性能。
metrics/mAP50-95(B)在0.5到0.95的IoU阈值范围内计算,提供更全面的模型性能评估。
val/box_loss模型在未见过的验证集上的边界框损失,用于监控模型的泛化能力。
val/cls_loss模型在验证集上的分类损失,用于监控模型的泛化能力。
val/dfl_loss模型在验证集上的难易样本平衡损失。

实战

环境准备

下载baseline相关文件

apt install git-lfs
git lfs install
git clone https://www.modelscope.cn/datasets/Datawhale/AI_Camp5_baseline_CV.git
!/opt/miniconda/bin/pip install opencv-python pandas matplotlib ultralytics

库介绍:

Ultralytics 是一个开源的Python库,主要用于计算机视觉任务,尤其是目标检测。Ultralytics最著名的产品是YOLOv5,这是一个在YOLO(You Only Look Once)系列算法基础上发展起来的目标检测模型。在使用Ultralytics进行项目开发时,通常会创建一个配置目录(如前述的~/.config/Ultralytics/),用于存储模型的配置文件、权重文件以及其他相关数据。

# 库倒入
import os, sys
import cv2, glob, json
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
!apt install zip unzip -y
!apt install unar -y

!wget "https://comp-public-prod.obs.cn-east-3.myhuaweicloud.com/dataset/2024/%E8%AE%AD%E7%BB%83%E9%9B%86%28%E6%9C%89%E6%A0%87%E6%B3%A8%E7%AC%AC%E4%B8%80%E6%89%B9%29.zip?AccessKeyId=583AINLNMLDRFK7CC1YM&Expires=1739168844&Signature=9iONBSJORCS8UNr2m/VZnc7yYno%3D" -O 训练集\(有标注第一批\).zip
!unar -q 训练集\(有标注第一批\).zip

!wget "https://comp-public-prod.obs.cn-east-3.myhuaweicloud.com/dataset/2024/%E6%B5%8B%E8%AF%95%E9%9B%86.zip?AccessKeyId=583AINLNMLDRFK7CC1YM&Expires=1739168909&Signature=CRsB54VqOtrzIdUHC3ay0l2ZGNw%3D" -O 测试集.zip
!unar -q 测试集.zip
  • apt 是一种在Debian类系统中(如Ubuntu)用于处理软件包的命令行工具。

  • installapt 的一个子命令,用于安装软件包。

  • zipunzip 是两个软件包的名称,分别用于压缩和解压缩ZIP文件。unar 是一个解压缩程序,可以处理多种压缩格式,包括ZIP文件。

  • -y 是一个选项,表示在安装过程中自动回答“是”,不需要用户交互确认。

  • wget:这是一个用于从网络上下载文件的命令。

  • -O:这个选项用于指定下载文件的保存名称,这里是训练集(有标注第一批).zip

  • -q:这个选项通常用于表示“quiet”,即安静模式,减少命令行输出的信息。

  • 训练集(有标注第一批).zip:这是要解压缩的文件名称。

数据读取

# 直观的查看下
train_anno = json.load(open('训练集(有标注第一批)/标注/45.json', encoding='utf-8'))
train_anno[0], len(train_anno)
# 直观的查看下
pd.read_json('训练集(有标注第一批)/标注/45.json')
# 导入视频并拆帧
video_path = '训练集(有标注第一批)/视频/45.mp4'
cap = cv2.VideoCapture(video_path)
while True:
    # 读取下一帧
    ret, frame = cap.read()
    if not ret:
        break
    break    
# 获取视频尺寸
frame.shape
# 获取视频的总帧数
int(cap.get(cv2.CAP_PROP_FRAME_COUNT))
# 查看第一个数据,并且绘制标记框
bbox = [746, 494, 988, 786] # 上文中读取

pt1 = (bbox[0], bbox[1]) # 左上角
pt2 = (bbox[2], bbox[3]) # 右下角

color = (0, 255, 0) # 绿色
thickness = 2  # 线条粗细

cv2.rectangle(frame, pt1, pt2, color, thickness) # 绘制长方形

frame = cv2.cvtColor(frame, cv2.COLOR_BGR2RGB) # 将图像从 BGR 格式转换为 RGB 格式。这是因为在 OpenCV 中,图像默认是 BGR 格式的,而 matplotlib 的 imshow 函数期望的是 RGB 格式的图像。
plt.imshow(frame)

数据转换

if not os.path.exists('yolo-dataset/'):
    os.mkdir('yolo-dataset/') #创建新目录
if not os.path.exists('yolo-dataset/train'):
    os.mkdir('yolo-dataset/train')
if not os.path.exists('yolo-dataset/val'):
    os.mkdir('yolo-dataset/val')

dir_path = os.path.abspath('./') + '/'
# 来获取相对路径的绝对路径,此处为获取当前目录的绝对路径

# 需要按照你的修改path
with open('yolo-dataset/yolo.yaml', 'w', encoding='utf-8') as up:
    # 这段代码的含义是在 "yolo-dataset" 目录下创建一个名为 "yolo.yaml" 的文件,并以 "写入" 方式打开文件,并以 "utf-8" 编码方式进行操作。
    # with open 是 Python 中常用的打开文件的语句,它可以确保文件被正确地打开并关闭
    up.write(f'''
path: {dir_path}/yolo-dataset/
train: train/
val: val/

names:
    0: 非机动车违停
    1: 机动车违停
    2: 垃圾桶满溢
    3: 违法经营
''')
train_annos = glob.glob('训练集(有标注第一批)/标注/*.json')
train_videos = glob.glob('训练集(有标注第一批)/视频/*.mp4')
train_annos.sort(); train_videos.sort(); # 保证一一对应

category_labels = ["非机动车违停", "机动车违停", "垃圾桶满溢", "违法经营"]

glob.glob():

使用了glob模块来获取指定路径下的文件列表

举例:train_annos = glob.glob('训练集(有标注第一批)/标注/*.json') 这一行代码使用glob.glob函数查找指定目录(‘训练集(有标注第一批)/标注/’)下所有以.json结尾的文件。glob.glob返回一个包含所有匹配文件路径的列表。在这里,train_annos将会是一个包含所有JSON格式标注文件的路径列表。

# 查看前5个互相对应的数据,检查,并转换
# 用作初步训练模拟的训练集
for anno_path, video_path in zip(train_annos[:5], train_videos[:5]):
    print(video_path)
    anno_df = pd.read_json(anno_path)
    cap = cv2.VideoCapture(video_path)
    frame_idx = 0 
    while True:
        ret, frame = cap.read()
        if not ret:
            break

        img_height, img_width = frame.shape[:2]
        
        frame_anno = anno_df[anno_df['frame_id'] == frame_idx]
        cv2.imwrite('./yolo-dataset/train/' + anno_path.split('/')[-1][:-5] + '_' + str(frame_idx) + '.jpg', frame)

        if len(frame_anno) != 0:
            with open('./yolo-dataset/train/' + anno_path.split('/')[-1][:-5] + '_' + str(frame_idx) + '.txt', 'w') as up:
                for category, bbox in zip(frame_anno['category'].values, frame_anno['bbox'].values):
                    category_idx = category_labels.index(category)
                    
                    x_min, y_min, x_max, y_max = bbox
                    x_center = (x_min + x_max) / 2 / img_width
                    y_center = (y_min + y_max) / 2 / img_height
                    width = (x_max - x_min) / img_width
                    height = (y_max - y_min) / img_height

                    if x_center > 1: # 防止错误?
                        print(bbox)
                    up.write(f'{category_idx} {x_center} {y_center} {width} {height}\n')
        
        frame_idx += 1

if x_center > 1: # 防止错误?软件编写中啥时候需要写?

# # 查看末3个互相对应的数据,检查,并转换
# 用作初步训练模拟的测试集
for anno_path, video_path in zip(train_annos[-3:], train_videos[-3:]):
    print(video_path)
    anno_df = pd.read_json(anno_path)
    cap = cv2.VideoCapture(video_path)
    frame_idx = 0 
    while True:
        ret, frame = cap.read()
        if not ret:
            break

        img_height, img_width = frame.shape[:2]
        
        frame_anno = anno_df[anno_df['frame_id'] == frame_idx]
        cv2.imwrite('./yolo-dataset/val/' + anno_path.split('/')[-1][:-5] + '_' + str(frame_idx) + '.jpg', frame)

        if len(frame_anno) != 0:
            with open('./yolo-dataset/val/' + anno_path.split('/')[-1][:-5] + '_' + str(frame_idx) + '.txt', 'w') as up:
                for category, bbox in zip(frame_anno['category'].values, frame_anno['bbox'].values):
                    category_idx = category_labels.index(category)
                    
                    x_min, y_min, x_max, y_max = bbox
                    x_center = (x_min + x_max) / 2 / img_width
                    y_center = (y_min + y_max) / 2 / img_height
                    width = (x_max - x_min) / img_width
                    height = (y_max - y_min) / img_height

                    up.write(f'{category_idx} {x_center} {y_center} {width} {height}\n')
        
        frame_idx += 1
!wget http://mirror.coggle.club/yolo/yolov8n-v8.2.0.pt -O yolov8n.pt
!mkdir -p ~/.config/Ultralytics/
#-p: 这是一个标志(option),代表“parents”。当你使用-p选项时,mkdir命令会创建指定路径中的所有必需的父目录。如果目录的父目录不存在,mkdir会自动创建它们。
!wget http://mirror.coggle.club/yolo/Arial.ttf -O ~/.config/Ultralytics/Arial.ttf
import os
os.environ["CUDA_VISIBLE_DEVICES"] = "0"

import warnings
warnings.filterwarnings('ignore') #忽略所有的警告信息

from ultralytics import YOLO
model = YOLO("yolov8n.pt")
results = model.train(data="yolo-dataset/yolo.yaml", epochs=2, imgsz=1080, batch=16)
具体讲解-model = YOLO(“yolov8n.pt”)

文件名“yolov8n.pt”

  • YOLOv8:这是YOLO算法的一个版本,即YOLO的第8个版本。每个版本可能都有其独特的网络架构、性能改进和特性。
  • n:这个字母通常表示模型的规模或配置。在YOLO模型中,不同的字母(如“n”、“s”、“m”、“l”、“x”)代表不同的模型大小,从最小(n)到最大(x)。较小的模型(如“n”)通常更快但可能精度较低,而较大的模型(如“x”)可能更精确但需要更多的计算资源。
  • .pt:这是文件扩展名,表示这个文件是一个PyTorch模型权重文件。PyTorch是一个流行的深度学习框架,.pt文件包含了模型的训练权重,可以用于推理或进一步训练。

YOLO()函数

  • 初始化模型:它会初始化YOLO模型的架构,并加载默认的配置参数。
  • 加载权重:如果你提供了一个模型权重文件的路径(例如“yolov8n.pt”),它会加载这些权重到模型中。这意味着模型将具有在权重文件中保存的所有训练参数,可以直接用于推理。
  • 准备推理:一旦模型和权重被加载,这个实例就可以用来对图像或视频进行目标检测

model变量

  • 这是一个变量,用于存储YOLO类的实例。你可以用这个变量来调用YOLO类提供的方法。
具体讲解-results = model.train(data=“yolo-dataset/yolo.yaml”, epochs=2, imgsz=1080, batch=16)
  • results =:这将训练过程的输出赋值给变量 results。这个变量将包含训练过程中的各种指标和统计数据,例如损失、精确度、召回率等。

  • model.train():这是YOLO模型实例的一个方法,用于启动训练过程。

  • data="yolo-dataset/yolo.yaml":这是传递给 train() 方法的第一个参数,指定了训练数据的路径和配置文件。yolo-dataset/yolo.yaml 是一个配置文件,它通常包含了以下信息:

    • path
    • train
    • val
    • nc
    • names

    配置文件通常是用YAML格式编写的,这是一种用于数据序列化的格式,易于阅读。

  • epochs=2:这是训练的迭代次数。每个epoch表示整个数据集被模型完整地训练一遍。在这个例子中,epochs=2 表示数据集将被训练两次。

  • imgsz=1080:这是指定输入图像的尺寸。1080 通常表示图像的较短边将被重新缩放到1080像素,而较长边将按比例缩放,以保持图像的宽高比。如果输入是方形图像,则表示图像将被缩放到1080x1080像素。如果想指定为长方形尺寸,可以使用元组,如(1080, 720)

  • batch=16:这是每个训练批次中的图像数量。批量大小(batch size)是机器学习中一个重要的超参数,它影响模型的收敛速度和稳定性。在这个例子中,每个批次包含16张图像。

category_labels = ["非机动车违停", "机动车违停", "垃圾桶满溢", "违法经营"]

if not os.path.exists('result/'):
    os.mkdir('result')
from ultralytics import YOLO
model = YOLO("runs/detect/train/weights/best.pt")
# 选取刚才训练的最好的模型权重
import glob

for path in glob.glob('测试集/*.mp4'):
    submit_json = []
    results = model(path, conf=0.05, imgsz=1080,  verbose=False)
    for idx, result in enumerate(results):
        boxes = result.boxes  
        masks = result.masks  
        keypoints = result.keypoints  
        probs = result.probs  
        obb = result.obb  
        if len(boxes.cls) == 0:
            continue
        xywh = boxes.xyxy.data.cpu().numpy().round()
        cls = boxes.cls.data.cpu().numpy().round()
        conf = boxes.conf.data.cpu().numpy()
        for i, (ci, xy, confi) in enumerate(zip(cls, xywh, conf)):
            submit_json.append(
                {
                    'frame_id': idx,
                    'event_id': i+1,
                    'category': category_labels[int(ci)],
                    'bbox': list([int(x) for x in xy]),
                    "confidence": float(confi)
                }
            )

    with open('./result/' + path.split('/')[-1][:-4] + '.json', 'w', encoding='utf-8') as up:
        json.dump(submit_json, up, indent=4, ensure_ascii=False)
model(path, conf=0.05, imgsz=1080, verbose=False)
  • conf=0.05:这是置信度阈值参数。置信度是模型对检测到的对象属于某个类别的确定性的度量。conf=0.05 表示只有当模型对检测结果的置信度至少为5%时,才会将其作为检测结果输出。较低的阈值可能会导致更多的误报,而较高的阈值可能会错过一些实际的检测。
  • verbose=False:这是一个布尔参数,用于控制推理过程中的输出信息。verbose=False 表示关闭详细输出,这意味着在推理过程中不会打印额外的信息。如果你设置为 True,则会打印更多的调试信息,这对于调试和监控推理过程可能很有用。
warning分析
  1. WARNING ⚠️ imgsz=[1080] must be multiple of max stride 32, updating to [1088]
    • imgsz=[1080]:这是指用户指定的输入图像尺寸。
    • max stride 32:这是YOLO模型在推理过程中使用的最大步长(stride)。在YOLO模型中,每个预测层(layer)都会生成一组边界框(bounding boxes),这些边界框的尺寸取决于该层的步长。
    • updating to [1088]:由于用户指定的图像尺寸1080不是32的倍数,YOLO库自动将其更新为最接近的32的倍数,即1088。这是因为YOLO模型期望输入图像尺寸是步长的整数倍,这样可以确保模型能够正确处理图像的边界,并避免在边界上产生边界框。
  2. WARNING ⚠️ inference results will accumulate in RAM unless stream=True is passed, causing potential out-of-memory errors for large sources or long-running streams and videos.
    • inference results will accumulate in RAM:这表示在推理过程中,检测到的结果会持续累积在内存中,直到处理完所有图像或视频帧。
    • unless stream=True is passed:除非用户传递了stream=True参数,否则默认情况下,检测结果会一次性存储在内存中。
    • causing potential out-of-memory errors for large sources or long-running streams and videos:这意味着对于大型图像源、长时间运行的流或视频,如果不设置stream=True,可能会因为内存不足而引发错误。
!\rm result/.ipynb_checkpoints/ -rf
!\rm result.zip
!zip -r result.zip result/
  • !\rm result/.ipynb_checkpoints/ -rf

    • !:这是一个命令提示符,它指示后面的命令应该在操作系统的Shell环境中执行,而不是在Python解释器中。

    • \rm:这是Linux和macOS中的一个命令,用于删除文件或目录。

    • result/.ipynb_checkpoints/:这是要删除的目录的路径。.ipynb_checkpoints/ 通常是一个隐藏的目录,其中包含Jupyter Notebook的检查点文件,这些文件在编辑和保存notebook时自动创建。

    • -rf:这是\rm命令的选项,其中:

      • -r:表示递归删除,即删除指定目录及其所有子目录和文件。
      • -f:表示强制删除,即不提示确认就直接删除。
        这个命令将递归地删除指定路径下的所有文件和目录,包括.ipynb_checkpoints/目录及其内容。
  • !\rm result.zip

    • 这是一个命令,用于删除名为result.zip的文件。
  • !zip -r result.zip result/

    • !:这是一个命令提示符,指示后面的命令应该在操作系统的Shell环境中执行。

    • zip:这是一个压缩工具,用于创建ZIP格式的压缩文件。

    • -r:表示递归压缩,即压缩指定目录及其所有子目录和文件。

    • result.zip:这是要创建的ZIP文件的名称。

    • result/:这是要压缩的目录的路径。
      这个命令将递归地压缩指定路径下的所有文件和目录,并将结果保存为名为result.zip的ZIP文件。
      请注意,使用-rf选项删除文件和目录时,如果没有适当的确认,可能会导致意外删除重要文件。在执行这类命令之前,请确保你了解命令的含义和后果。

模型优化

  1. 增加训练的数据集,可以增加更多的视频到训练集中进行训练。

  2. 切换不同的模型预训练权重。

在这里插入图片描述

实测结果

训练集 / 测试集 / 模型权重 / epoch / batch

5 / 3 / yolov8n / 2 / 16:0.0047834701569362

37 / 16 / yolov8s / 5 / 5:0.1355492959990365

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值