Datawhale夏令营 CV

最新推荐文章于 2024-09-09 09:47:53 发布

Pluto4869

最新推荐文章于 2024-09-09 09:47:53 发布

阅读量289

点赞数 4

文章标签：人工智能

本文链接：https://blog.csdn.net/Pluto4869/article/details/141476488

版权

训练营内容：利用图像处理和计算机视觉技术开发一套智能识别系统，自动检测和分类摄像头捕获的视频中，城市管理中的违规行为。

相关技术：YOLO（You Only Look Once），是一种单次卷积神经网络（CNN）的目标检测算法，其核心原理在于将目标检测任务视为一个回归问题，通过单次卷积操作直接预测目标的边界框和类别概率。

YOLO的基本思想

YOLO将输入图像划分为S×S的网格，每个网格负责检测中心落在该网格内的目标。每个网格会预测B个边界框（Bounding Box）以及这些边界框的置信度和C个类别的概率。对于一张输入图像，YOLO的输出是一个S×S×(B×5+C)的张量，其中每个边界框包含5个预测值：(x, y, w, h, confidence)，分别表示边界框的中心坐标（相对于网格的偏移量）、宽度和高度（相对于整个图像的归一化值），以及置信度（表示边界框内存在目标的概率与边界框和真实框之间的交并比IOU的乘积）。

YOLO的关键步骤

1. 图像划分与特征提取：
- 输入图像被划分为S×S的网格。
- 使用卷积神经网络（如Darknet）对输入图像进行特征提取，得到特征图（Feature Map）。

2. 边界框与置信度预测：
- 对于特征图中的每个网格，预测B个边界框的位置和大小，以及每个边界框的置信度。
- 边界框的位置和大小通过以下公式计算：
- 中心点坐标（x, y）：相对于网格左上角的偏移量，归一化到[0, 1]之间。
- 宽度和高度（w, h）：相对于整个图像的宽度和高度的比例，同样归一化到[0, 1]之间。

3. 类别概率预测：
- 每个网格还会预测C个类别的概率，这些概率表示该网格内目标属于各个类别的条件概率。

4. 输出张量：
- YOLO的输出是一个S×S×(B×5+C)的张量，其中包含了所有网格的边界框信息、置信度和类别概率。

损失函数

YOLO的损失函数将目标检测视为一个回归问题，采用均方差损失函数，并对不同的部分（如定位误差、分类误差、置信度误差）赋予不同的权重。损失函数的主要组成部分包括：

- 定位误差：边界框坐标的预测误差，采用较大的权重。
- 置信度误差：分为包含目标的边界框和不包含目标的边界框，前者采用较大的权重，后者采用较小的权重。
- 分类误差：只有当边界框内存在目标时，才会计算分类误差。

后处理

在预测阶段，YOLO使用非极大值抑制（NMS）算法去除多余的边界框，选择置信度最高的边界框作为最终的检测结果。这一步骤有助于减少重叠的边界框，提高检测的准确性。

Pluto4869

关注

4
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
Datawhale夏令营 CV

对于一张输入图像，YOLO的输出是一个S×S×(B×5+C)的张量，其中每个边界框包含5个预测值：(x, y, w, h, confidence)，分别表示边界框的中心坐标（相对于网格的偏移量）、宽度和高度（相对于整个图像的归一化值），以及置信度（表示边界框内存在目标的概率与边界框和真实框之间的交并比IOU的乘积）。- 置信度误差：分为包含目标的边界框和不包含目标的边界框，前者采用较大的权重，后者采用较小的权重。- 对于特征图中的每个网格，预测B个边界框的位置和大小，以及每个边界框的置信度。
复制链接

扫一扫