【Datawhale AI夏令营】CV方向第一次笔记

Round1y

于 2024-08-26 15:40:45 发布

阅读量472

点赞数 14

文章标签：人工智能笔记

本文链接：https://blog.csdn.net/qq_45516068/article/details/141565710

版权

文章目录

1.题目大致要求以及赛题网址
2.运行进程
3.阅读代码，学习过程，发现问题

1.题目大致要求以及赛题网址

2024“大运河杯”数据开发应用创新大赛——城市治理

赛题网址：https://www.marsbigdata.com/competition/details?id=3839107548872

随着城市化进程的加快，城市管理面临着前所未有的挑战。占道经营、垃圾堆放和无照经营游商等问题对城市管理提出了更高的要求。本赛道聚焦城市违规行为的智能检测，要求选手研究开发高效可靠的计算机视觉算法，提升违规行为检测识别的准确度，降低对大量人工的依赖，提升检测效果和效率，从而推动城市治理向更高效、更智能、更文明的方向发展，为居民创造一个安全、和谐、可持续的居住环境。

2.运行进程

2.1赛题目标与学习方向

本赛题最终目标是开发一套智能识别系统，用于自动检测和分类城市管理中的违规行为。

学习内容提要（copy）：大模型技术方案精读、进阶与优化，涉及赛题数据处理、多agent系统方案，再到微调大模型方案，会简单介绍机器学习解决赛题的思路

2.2前期准备

在ubuntu系统上打开bash，本次采用夏令营专属厚德云支持的4080系统进行运算，具体操作可以看官方的学习文档中领取part

apt install git-lfs
git lfs install
git clone https://www.modelscope.cn/datasets/Datawhale/AI_Camp5_baseline_CV.git

https://www.modelscope.cn/datasets/Datawhale/AI_Camp5_baseline_CV.git所包含内容如下

2.3打开task1.ipynb，开始运行

在jupyter notebook中一键运行，然后等待并获取最终的结果result.zip。压缩包内包含的白哦准文件文件如下：

格式参考后文代码解读

2.4将文件提交至赛事，获得结果

在这里插入图片描述

可以看到结果非常的炸裂，只有0.00478

3.阅读代码，学习过程，发现问题

3.1代码部分

3.1.1库函数下载、导入；训练集和测试集下载

!/opt/miniconda/bin/pip install opencv-python pandas matplotlib ultralytics

使用绝对路径指定pip命令用来下载python版本的OpenCV包、pandas包、matplotlib包以及Ultralytics包。其中OpenCV用于进行图像和视频处理，pandas用于数据处理，matplotlib用于数据可视化，ultralytics用于目标检测和图像分类，这四个库都是python中常用的库函数。

本人学习python的网站：Python3 教程 | 菜鸟教程 (runoob.com)

import os, sys
import cv2, glob, json
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

库函数引用

!apt install zip unzip -y
!apt install unar -y

!wget "https://comp-public-prod.obs.cn-east-3.myhuaweicloud.com/dataset/2024/%E8%AE%AD%E7%BB%83%E9%9B%86%28%E6%9C%89%E6%A0%87%E6%B3%A8%E7%AC%AC%E4%B8%80%E6%89%B9%29.zip?AccessKeyId=583AINLNMLDRFK7CC1YM&Expires=1739168844&Signature=9iONBSJORCS8UNr2m/VZnc7yYno%3D" -O 训练集\(有标注第一批\).zip
!unar -q 训练集\(有标注第一批\).zip

!wget "https://comp-public-prod.obs.cn-east-3.myhuaweicloud.com/dataset/2024/%E6%B5%8B%E8%AF%95%E9%9B%86.zip?AccessKeyId=583AINLNMLDRFK7CC1YM&Expires=1739168909&Signature=CRsB54VqOtrzIdUHC3ay0l2ZGNw%3D" -O 测试集.zip
!unar -q 测试集.zip

此处均为bash命令，涉及到ubuntu系统的基础用法。对于从未使用的系统，可以进行安装zip和unzip工具。然后下载训练集和测试集并进行解压。

在这里插入图片描述

命令行运行过程

3.1.2数据读取

train_anno = json.load(open('训练集(有标注第一批)/标注/45.json', encoding='utf-8'))
train_anno[0], len(train_anno)

在这里插入图片描述

frame_id：违规行为出现的帧编号
event_id：违规行为ID
category：违规行为类别
bbox：检测到的违规行为矩形框的坐标，[xmin,ymin,xmax,ymax]形式

pd.read_json('训练集(有标注第一批)/标注/45.json')

在这里插入图片描述

使用pandas库中的pd来读取文件，获得文件中的列表，每个编号都代表着检测到的一整个完整的违规行为。

video_path = '训练集(有标注第一批)/视频/45.mp4'
cap = cv2.VideoCapture(video_path)
while True:
    # 读取下一帧
    ret, frame = cap.read()
    if not ret:
        break
    break

使用cv2读取视频每一帧，下面读取后可发现每帧图像都是1080*1920的彩色图像(3为RGB图像)

frame.shape

在这里插入图片描述

int(cap.get(cv2.CAP_PROP_FRAME_COUNT))
==>"422"

获取视频帧总数

bbox = [746, 494, 988, 786]

pt1 = (bbox[0], bbox[1])
pt2 = (bbox[2], bbox[3])

color = (0, 255, 0) 
thickness = 2  # 线条粗细

cv2.rectangle(frame, pt1, pt2, color, thickness)

frame = cv2.cvtColor(frame, cv2.COLOR_BGR2RGB)
plt.imshow(frame)

在这里插入图片描述

使用matplotlib显示图像，并使用opencv画一个绿色的矩形框

3.1.3数据转换

if not os.path.exists('yolo-dataset/'):
    os.mkdir('yolo-dataset/')
if not os.path.exists('yolo-dataset/train'):
    os.mkdir('yolo-dataset/train')
if not os.path.exists('yolo-dataset/val'):
    os.mkdir('yolo-dataset/val')

dir_path = os.path.abspath('./') + '/'

# 需要按照你的修改path
with open('yolo-dataset/yolo.yaml', 'w', encoding='utf-8') as up:
    up.write(f'''
path: {dir_path}/yolo-dataset/
train: train/
val: val/

names:
    0: 非机动车违停
    1: 机动车违停
    2: 垃圾桶满溢
    3: 违法经营
''')

创建一个用于YOLO目标检测的配置文件，即yolo-dataset/yolo.yaml中的yolo.yaml。YOLO的使用放在后文。

train_annos = glob.glob('训练集(有标注第一批)/标注/*.json')
train_videos = glob.glob('训练集(有标注第一批)/视频/*.mp4')
train_annos.sort(); train_videos.sort();

category_labels = ["非机动车违停", "机动车违停", "垃圾桶满溢", "违法经营"]

使用glob函数来获取文件夹中的所有指定文件，其中*指代所有符合后缀的视频；这两个语句分别对 train_annos 和 train_videos列表进行排序，以确保文件按照特定的顺序进行处理。

category_labels定义了一个列表，包含所有的违法行为的命名，后续方便进行操作。

for anno_path, video_path in zip(train_annos[:5], train_videos[:5]):
    print(video_path)
    anno_df = pd.read_json(anno_path)
    cap = cv2.VideoCapture(video_path)
    frame_idx = 0 
    while True:
        ret, frame = cap.read()
        if not ret:
            break

        img_height, img_width = frame.shape[:2]
        
        frame_anno = anno_df[anno_df['frame_id'] == frame_idx]
        cv2.imwrite('./yolo-dataset/train/' + anno_path.split('/')[-1][:-5] + '_' + str(frame_idx) + '.jpg', frame)

        if len(frame_anno) != 0:
            with open('./yolo-dataset/train/' + anno_path.split('/')[-1][:-5] + '_' + str(frame_idx) + '.txt', 'w') as up:
                for category, bbox in zip(frame_anno['category'].values, frame_anno['bbox'].values):
                    category_idx = category_labels.index(category)
                    
                    x_min, y_min, x_max, y_max = bbox
                    x_center = (x_min + x_max) / 2 / img_width
                    y_center = (y_min + y_max) / 2 / img_height
                    width = (x_max - x_min) / img_width
                    height = (y_max - y_min) / img_height

                    if x_center > 1:
                        print(bbox)
                    up.write(f'{category_idx} {x_center} {y_center} {width} {height}\n')
        
        frame_idx += 1

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

for anno_path, video_path in zip(train_annos[-3:], train_videos[-3:]):
    print(video_path)
    anno_df = pd.read_json(anno_path)
    cap = cv2.VideoCapture(video_path)
    frame_idx = 0 
    while True:
        ret, frame = cap.read()
        if not ret:
            break

        img_height, img_width = frame.shape[:2]
        
        frame_anno = anno_df[anno_df['frame_id'] == frame_idx]
        cv2.imwrite('./yolo-dataset/val/' + anno_path.split('/')[-1][:-5] + '_' + str(frame_idx) + '.jpg', frame)

        if len(frame_anno) != 0:
            with open('./yolo-dataset/val/' + anno_path.split('/')[-1][:-5] + '_' + str(frame_idx) + '.txt', 'w') as up:
                for category, bbox in zip(frame_anno['category'].values, frame_anno['bbox'].values):
                    category_idx = category_labels.index(category)
                    
                    x_min, y_min, x_max, y_max = bbox
                    x_center = (x_min + x_max) / 2 / img_width
                    y_center = (y_min + y_max) / 2 / img_height
                    width = (x_max - x_min) / img_width
                    height = (y_max - y_min) / img_height

                    up.write(f'{category_idx} {x_center} {y_center} {width} {height}\n')
        
        frame_idx += 1

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

3.1.4YOLO训练

!wget http://mirror.coggle.club/yolo/yolov8n-v8.2.0.pt -O yolov8n.pt

!mkdir -p ~/.config/Ultralytics/
!wget http://mirror.coggle.club/yolo/Arial.ttf -O ~/.config/Ultralytics/Arial.ttf

import os
os.environ["CUDA_VISIBLE_DEVICES"] = "0"

import warnings
warnings.filterwarnings('ignore')


from ultralytics import YOLO
model = YOLO("yolov8n.pt")
results = model.train(data="yolo-dataset/yolo.yaml", epochs=2, imgsz=1080, batch=16)

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

category_labels = ["非机动车违停", "机动车违停", "垃圾桶满溢", "违法经营"]

if not os.path.exists('result/'):
    os.mkdir('result')

from ultralytics import YOLO
model = YOLO("runs/detect/train/weights/best.pt")
import glob

for path in glob.glob('测试集/*.mp4'):
    submit_json = []
    results = model(path, conf=0.05, imgsz=1080,  verbose=False)
    for idx, result in enumerate(results):
        boxes = result.boxes  # Boxes object for bounding box outputs
        masks = result.masks  # Masks object for segmentation masks outputs
        keypoints = result.keypoints  # Keypoints object for pose outputs
        probs = result.probs  # Probs object for classification outputs
        obb = result.obb  # Oriented boxes object for OBB outputs

        if len(boxes.cls) == 0:
            continue
        
        xywh = boxes.xyxy.data.cpu().numpy().round()
        cls = boxes.cls.data.cpu().numpy().round()
        conf = boxes.conf.data.cpu().numpy()
        for i, (ci, xy, confi) in enumerate(zip(cls, xywh, conf)):
            submit_json.append(
                {
                    'frame_id': idx,
                    'event_id': i+1,
                    'category': category_labels[int(ci)],
                    'bbox': list([int(x) for x in xy]),
                    "confidence": float(confi)
                }
            )

    with open('./result/' + path.split('/')[-1][:-4] + '.json', 'w', encoding='utf-8') as up:
        json.dump(submit_json, up, indent=4, ensure_ascii=False)

!\rm result/.ipynb_checkpoints/ -rf
!\rm result.zip
!zip -r result.zip result/

4.学习YOLO

idence": float(confi)
}
)

with open('./result/' + path.split('/')[-1][:-4] + '.json', 'w', encoding='utf-8') as up:
    json.dump(submit_json, up, indent=4, ensure_ascii=False)




```python
!\rm result/.ipynb_checkpoints/ -rf
!\rm result.zip
!zip -r result.zip result/

4.学习YOLO

Round1y

关注

14
点赞
踩
18

收藏

觉得还不错? 一键收藏
0
评论
【Datawhale AI夏令营】CV方向第一次笔记

本赛道聚焦城市违规行为的智能检测，要求选手研究开发高效可靠的计算机视觉算法，提升违规行为检测识别的准确度，降低对大量人工的依赖，提升检测效果和效率，从而推动城市治理向更高效、更智能、更文明的方向发展，为居民创造一个安全、和谐、可持续的居住环境。使用pandas库中的pd来读取文件，获得文件中的列表，每个编号都代表着检测到的一整个完整的违规行为。创建一个用于YOLO目标检测的配置文件，即yolo-dataset/yolo.yaml中的。定义了一个列表，包含所有的违法行为的命名，后续方便进行操作。
复制链接

扫一扫