Datawhale AI 夏令营 CV方向 Task01总结

      一、了解赛题

     本次赛事是有关动态视频中查找相关的违法行为的,利用图像处理和计算机视觉技术开发一套系统,能够达到上述的目标。

    针对赛题,我们可以清楚,数据集为视频加上数据的json格式集,json格式主要有以下的内容:

[

frame_id:违规行为出现的帧编号

event_id:违规行为ID

category:违规行为类别

bbox:检测到的违规行为矩形框的坐标,形式为[x_min,y_min,x_max,y_max]形式

]

评分标准如下:

二、相关技术介绍

YOLO:是计算机视觉领域比较广泛使用的计算机视觉模型(系统),核心思想是将目标检测任务视为一个单一的回归问题,通过一个卷积神经网络(CNN)直接从图像像素到边界框坐标和类别概率的映射。

标注格式:

YOLO使用的标注格式是每张图像一个文本文件,文件名与图像文件名相对应。文本文件中每一行对应一个边界框,格式为:<class> <x_center> <y_center> <width> <height>

其中,<class>是类别索引,<x_center><y_center>是边界框中心点相对于图像宽度和高度的比例,<width><height>是边界框的宽度和高度相对于图像宽度和高度的比例。

具体原理:

分割:YOLO从中分割成若干个格子,这每一个格子各为1个单元。

查找:YOLO通过在这些格子里寻找落入格子的目标中心点,最后该单元格会预测B(v1中B为2)个边界框(bounding box)以及边界框的置信度(confidence score)。

一些解释:

1.怎样确定目标中心是否在里面?

对目标二分类的结果,即目标是否在这张照片里面,通过寻找目标对应的特征(至于这个特征是什么应该是一个黑盒子问题),来判断。

感觉可以类比理解为搜索算法中的BFS+判断函数。

2.如何找到目标的框架?

以在照片中寻找狗为例,框架的大小可以寻找狗的特征,通过多个特征中心的确定来联合确定这是一只狗,通过一个特征出发向周围扩展。

边界框的大小与位置可以用4个值来表征: (x, y, w, h) ,其中 (x, y) 是边界框的中心坐标,而 w 和 h 是边界框的宽与高。还有一点要注意,中心坐标的预测值 (x, y) 是相对于每个单元格左上角坐标点的偏移值,并且单位是单元格大小。而边界框的 w 和 h 预测值是相对于整个图片的宽与高的比例,

3.YOLO的具体运用。

YOLO已经被应用到了诸多领域,如自主车辆系统,能够快速识别和跟踪各种物体,如车辆、行人、自行车和其他障碍物;农业,能够检测和分类农作物、害虫和疾病,协助精准农业技术和自动化耕作过程;医学,能够用于癌症检测、皮肤分割和药片识别,从而提高诊断的准确性和更有效的治疗过程;遥感领域,能够用于卫星和航空图像中的物体检测和分类,有助于土地利用绘图、城市规划和环境监测;安防系统,能够快速检测可疑活动、社会距离和脸部面具检测;交通领域,被用于车牌检测和交通标志识别等任务。

【1、2、3参考自https://zhuanlan.zhihu.com/p/650878036

4.局限性。

(1)由于YOLO格式最后标出来的是矩形,因此,对于那些非正多边形的目标框架,标注的框架可能在覆盖上不会有太好的结果。

(2)

三、浅谈Baseline

Baseline中我们使用了YOLO算法,以及相关视频数据的处理方法。

在Baseline代码中,我们可以看到代码使用了cv2库(opencv的库),

cap = cv2.VideoCapture(video_path)
while True:
    # 读取下一帧
    ret, frame = cap.read()
    if not ret:
        break
    break    

这里通过cv库中的视频处理信号处理视频中每一帧的内容。

注意到,cap.read()中有两个变量,ret表示是否读取成功,frame读出的是numpy数组。

下面有一段代码是改写数据格式为YOLO格式:

for anno_path, video_path in zip(train_annos[:5], train_videos[:5]):
    print(video_path)
    anno_df = pd.read_json(anno_path)
    cap = cv2.VideoCapture(video_path)
    frame_idx = 0 
    while True:
        ret, frame = cap.read()
        if not ret:
            break

        img_height, img_width = frame.shape[:2]
        
        frame_anno = anno_df[anno_df['frame_id'] == frame_idx]
        cv2.imwrite('./yolo-dataset/train/' + anno_path.split('/')[-1][:-5] + '_' + str(frame_idx) + '.jpg', frame)

        if len(frame_anno) != 0:
            with open('./yolo-dataset/train/' + anno_path.split('/')[-1][:-5] + '_' + str(frame_idx) + '.txt', 'w') as up:
                for category, bbox in zip(frame_anno['category'].values, frame_anno['bbox'].values):
                    category_idx = category_labels.index(category)
                    
                    x_min, y_min, x_max, y_max = bbox
                    x_center = (x_min + x_max) / 2 / img_width
                    y_center = (y_min + y_max) / 2 / img_height
                    width = (x_max - x_min) / img_width
                    height = (y_max - y_min) / img_height

                    if x_center > 1:
                        print(bbox)
                    up.write(f'{category_idx} {x_center} {y_center} {width} {height}\n')
        
        frame_idx += 1

这段代码的目的是为了改写标注格式方便YOLO训练。

调用模型直接训练:

from ultralytics import YOLO
model = YOLO("yolov8n.pt")
results = model.train(data="yolo-dataset/yolo.yaml", epochs=2, imgsz=1080, batch=16)

由于没有经过任何细节的调整,因此提交上去的评分很差。

将结果写入文件:

在遍历测试集的时候,对视频进行一帧一帧的解析,写入文件中。

from ultralytics import YOLO
model = YOLO("runs/detect/train/weights/best.pt")
import glob

for path in glob.glob('测试集/*.mp4'):
    submit_json = []
    results = model(path, conf=0.05, imgsz=1080,  verbose=False)
    for idx, result in enumerate(results):
        boxes = result.boxes  # Boxes object for bounding box outputs
        masks = result.masks  # Masks object for segmentation masks outputs
        keypoints = result.keypoints  # Keypoints object for pose outputs
        probs = result.probs  # Probs object for classification outputs
        obb = result.obb  # Oriented boxes object for OBB outputs

        if len(boxes.cls) == 0:
            continue
        
        xywh = boxes.xyxy.data.cpu().numpy().round()
        cls = boxes.cls.data.cpu().numpy().round()
        conf = boxes.conf.data.cpu().numpy()
        for i, (ci, xy, confi) in enumerate(zip(cls, xywh, conf)):
            submit_json.append(
                {
                    'frame_id': idx,
                    'event_id': i+1,
                    'category': category_labels[int(ci)],
                    'bbox': list([int(x) for x in xy]),
                    "confidence": float(confi)
                }
            )

    with open('./result/' + path.split('/')[-1][:-4] + '.json', 'w', encoding='utf-8') as up:
        json.dump(submit_json, up, indent=4, ensure_ascii=False)

后续的话可以考虑对模型进行一些微调。

四、总结

初识计算机视觉的任务,代码的流程主要是读训练集->调用YOLOv8进行训练->写文件测试。

  • 24
    点赞
  • 28
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

追逐着明

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值