Datawhale夏令营 CV

训练营内容:利用图像处理计算机视觉技术开发一套智能识别系统,自动检测和分类摄像头捕获的视频中,城市管理中的违规行为。

相关技术:YOLO(You Only Look Once),是一种单次卷积神经网络(CNN)的目标检测算法,其核心原理在于将目标检测任务视为一个回归问题,通过单次卷积操作直接预测目标的边界框和类别概率。

YOLO的基本思想

YOLO将输入图像划分为S×S的网格,每个网格负责检测中心落在该网格内的目标。每个网格会预测B个边界框(Bounding Box)以及这些边界框的置信度和C个类别的概率。对于一张输入图像,YOLO的输出是一个S×S×(B×5+C)的张量,其中每个边界框包含5个预测值:(x, y, w, h, confidence),分别表示边界框的中心坐标(相对于网格的偏移量)、宽度和高度(相对于整个图像的归一化值),以及置信度(表示边界框内存在目标的概率与边界框和真实框之间的交并比IOU的乘积)。

YOLO的关键步骤

1. 图像划分与特征提取:
   - 输入图像被划分为S×S的网格。
   - 使用卷积神经网络(如Darknet)对输入图像进行特征提取,得到特征图(Feature Map)。

2. 边界框与置信度预测:
   - 对于特征图中的每个网格,预测B个边界框的位置和大小,以及每个边界框的置信度。
   - 边界框的位置和大小通过以下公式计算:
     - 中心点坐标(x, y):相对于网格左上角的偏移量,归一化到[0, 1]之间。
     - 宽度和高度(w, h):相对于整个图像的宽度和高度的比例,同样归一化到[0, 1]之间。

3. 类别概率预测:
   - 每个网格还会预测C个类别的概率,这些概率表示该网格内目标属于各个类别的条件概率。

4. 输出张量:
   - YOLO的输出是一个S×S×(B×5+C)的张量,其中包含了所有网格的边界框信息、置信度和类别概率。

损失函数

YOLO的损失函数将目标检测视为一个回归问题,采用均方差损失函数,并对不同的部分(如定位误差、分类误差、置信度误差)赋予不同的权重。损失函数的主要组成部分包括:

- 定位误差:边界框坐标的预测误差,采用较大的权重。
- 置信度误差:分为包含目标的边界框和不包含目标的边界框,前者采用较大的权重,后者采用较小的权重。
- 分类误差:只有当边界框内存在目标时,才会计算分类误差。

后处理

在预测阶段,YOLO使用非极大值抑制(NMS)算法去除多余的边界框,选择置信度最高的边界框作为最终的检测结果。这一步骤有助于减少重叠的边界框,提高检测的准确性。

  • 4
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值