Datawhale AI 夏令营 CV方向 Task01总结-CSDN博客

本文链接：https://blog.csdn.net/m0_74105281/article/details/141416615

一、了解赛题

本次赛事是有关动态视频中查找相关的违法行为的，利用图像处理和计算机视觉技术开发一套系统，能够达到上述的目标。

针对赛题，我们可以清楚，数据集为视频加上数据的json格式集，json格式主要有以下的内容：

[

frame_id:违规行为出现的帧编号

event_id:违规行为ID

category:违规行为类别

bbox:检测到的违规行为矩形框的坐标，形式为[x_min,y_min,x_max,y_max]形式

]

评分标准如下：

二、相关技术介绍

YOLO:是计算机视觉领域比较广泛使用的计算机视觉模型（系统），核心思想是将目标检测任务视为一个单一的回归问题，通过一个卷积神经网络（CNN）直接从图像像素到边界框坐标和类别概率的映射。

标注格式：

YOLO使用的标注格式是每张图像一个文本文件，文件名与图像文件名相对应。文本文件中每一行对应一个边界框，格式为：<class> <x_center> <y_center> <width> <height>。

其中，<class>是类别索引，<x_center>和<y_center>是边界框中心点相对于图像宽度和高度的比例，<width>和<height>是边界框的宽度和高度相对于图像宽度和高度的比例。

具体原理：

分割：YOLO从中分割成若干个格子，这每一个格子各为1个单元。

查找：YOLO通过在这些格子里寻找落入格子的目标中心点，最后该单元格会预测B（v1中B为2）个边界框（bounding box）以及边界框的置信度（confidence score）。

一些解释：

1.怎样确定目标中心是否在里面？

对目标二分类的结果，即目标是否在这张照片里面，通过寻找目标对应的特征（至于这个特征是什么应该是一个黑盒子问题），来判断。

感觉可以类比理解为搜索算法中的BFS+判断函数。

2.如何找到目标的框架？

以在照片中寻找狗为例，框架的大小可以寻找狗的特征，通过多个特征中心的确定来联合确定这是一只狗，通过一个特征出发向周围扩展。

边界框的大小与位置可以用4个值来表征： (x, y, w, h) ，其中 (x, y) 是边界框的中心坐标，而 w 和 h 是边界框的宽与高。还有一点要注意，中心坐标的预测值 (x, y) 是相对于每个单元格左上角坐标点的偏移值，并且单位是单元格大小。而边界框的 w 和 h 预测值是相对于整个图片的宽与高的比例，

3.YOLO的具体运用。

YOLO已经被应用到了诸多领域，如自主车辆系统，能够快速识别和跟踪各种物体，如车辆、行人、自行车和其他障碍物；农业，能够检测和分类农作物、害虫和疾病，协助精准农业技术和自动化耕作过程；医学，能够用于癌症检测、皮肤分割和药片识别，从而提高诊断的准确性和更有效的治疗过程；遥感领域，能够用于卫星和航空图像中的物体检测和分类，有助于土地利用绘图、城市规划和环境监测；安防系统，能够快速检测可疑活动、社会距离和脸部面具检测；交通领域，被用于车牌检测和交通标志识别等任务。

【1、2、3参考自https://zhuanlan.zhihu.com/p/650878036】

4.局限性。

（1）由于YOLO格式最后标出来的是矩形，因此，对于那些非正多边形的目标框架，标注的框架可能在覆盖上不会有太好的结果。

（2）

三、浅谈Baseline

Baseline中我们使用了YOLO算法，以及相关视频数据的处理方法。

在Baseline代码中，我们可以看到代码使用了cv2库(opencv的库)，

cap = cv2.VideoCapture(video_path)
while True:
    # 读取下一帧
    ret, frame = cap.read()
    if not ret:
        break
    break

这里通过cv库中的视频处理信号处理视频中每一帧的内容。

注意到，cap.read()中有两个变量，ret表示是否读取成功，frame读出的是numpy数组。

下面有一段代码是改写数据格式为YOLO格式：

for anno_path, video_path in zip(train_annos[:5], train_videos[:5]):
    print(video_path)
    anno_df = pd.read_json(anno_path)
    cap = cv2.VideoCapture(video_path)
    frame_idx = 0 
    while True:
        ret, frame = cap.read()
        if not ret:
            break

        img_height, img_width = frame.shape[:2]
        
        frame_anno = anno_df[anno_df['frame_id'] == frame_idx]
        cv2.imwrite('./yolo-dataset/train/' + anno_path.split('/')[-1][:-5] + '_' + str(frame_idx) + '.jpg', frame)

        if len(frame_anno) != 0:
            with open('./yolo-dataset/train/' + anno_path.split('/')[-1][:-5] + '_' + str(frame_idx) + '.txt', 'w') as up:
                for category, bbox in zip(frame_anno['category'].values, frame_anno['bbox'].values):
                    category_idx = category_labels.index(category)
                    
                    x_min, y_min, x_max, y_max = bbox
                    x_center = (x_min + x_max) / 2 / img_width
                    y_center = (y_min + y_max) / 2 / img_height
                    width = (x_max - x_min) / img_width
                    height = (y_max - y_min) / img_height

                    if x_center > 1:
                        print(bbox)
                    up.write(f'{category_idx} {x_center} {y_center} {width} {height}\n')
        
        frame_idx += 1

这段代码的目的是为了改写标注格式方便YOLO训练。

调用模型直接训练：

from ultralytics import YOLO
model = YOLO("yolov8n.pt")
results = model.train(data="yolo-dataset/yolo.yaml", epochs=2, imgsz=1080, batch=16)

由于没有经过任何细节的调整，因此提交上去的评分很差。

将结果写入文件：

在遍历测试集的时候，对视频进行一帧一帧的解析，写入文件中。

from ultralytics import YOLO
model = YOLO("runs/detect/train/weights/best.pt")
import glob

for path in glob.glob('测试集/*.mp4'):
    submit_json = []
    results = model(path, conf=0.05, imgsz=1080,  verbose=False)
    for idx, result in enumerate(results):
        boxes = result.boxes  # Boxes object for bounding box outputs
        masks = result.masks  # Masks object for segmentation masks outputs
        keypoints = result.keypoints  # Keypoints object for pose outputs
        probs = result.probs  # Probs object for classification outputs
        obb = result.obb  # Oriented boxes object for OBB outputs

        if len(boxes.cls) == 0:
            continue
        
        xywh = boxes.xyxy.data.cpu().numpy().round()
        cls = boxes.cls.data.cpu().numpy().round()
        conf = boxes.conf.data.cpu().numpy()
        for i, (ci, xy, confi) in enumerate(zip(cls, xywh, conf)):
            submit_json.append(
                {
                    'frame_id': idx,
                    'event_id': i+1,
                    'category': category_labels[int(ci)],
                    'bbox': list([int(x) for x in xy]),
                    "confidence": float(confi)
                }
            )

    with open('./result/' + path.split('/')[-1][:-4] + '.json', 'w', encoding='utf-8') as up:
        json.dump(submit_json, up, indent=4, ensure_ascii=False)

后续的话可以考虑对模型进行一些微调。

四、总结

初识计算机视觉的任务，代码的流程主要是读训练集->调用YOLOv8进行训练->写文件测试。