目标检测与YOLO

最新推荐文章于 2024-08-11 18:44:16 发布

三秋昼

最新推荐文章于 2024-08-11 18:44:16 发布

阅读量122

点赞数

文章标签：计算机视觉人工智能

本文链接：https://blog.csdn.net/m0_56654844/article/details/130052341

版权

YOLO是一种目标检测算法，它将图片划分为7x7的网格，每个网格预测2个边界框和类别。网络结构包括24个卷积层和2个全连接层，使用预训练和微调策略进行训练。模型输出包含每个边界框的位置、大小和置信度。非极大值抑制用于消除重复的检测结果。训练过程中应用dropout和数据增强来防止过拟合。

摘要由CSDN通过智能技术生成

目标检测问题

目标检测是在给定的图片中精确找到物体所位置，并注出类别。物体的尺寸变化范围很大，摆放角度姿态不定而且可以出现在图片的任何地方，并且物体还可以是多个类别。

YOLO网络结构概略图

网络结构包含 24 个卷积层和 2个全连接层；其中前 20 个卷积层用来做预训练，后面 4个是随机初始化的卷积层，和 2个全连接层。

YOLO模型

𝟕×𝟕网格划分

将图片分割为𝑆 x 𝑆个grid( 𝑆=7)，每个grid cell 的大小都是相等，每个格子都可以检测是否包含目标YOLO v1 中，每个格子只能检测一种物体（但可以不同大小）。

网络输出

输出是一个 7×7×30的张量。对应 7×7个cell，每个 cell 对应 2个包围框 (bounding box, bb) ，预测不同大小和宽高比对应检测不同目标。每个 bb 有5个分量，分别是物体的中心位置 (𝑥,𝑦)和它的高 (ℎ)和宽 (𝑤)，以及这次预测的置信度。在右图中，每个框代表 1个预测的 bb ，粗细代表不同的置信度越得高。

模型输出

在上面的例子中，图片被分成了 49 个框，每个框预测 2个bb ，因此上面的图中有98 个bb

包围框与置信度

YOLO包围框

我们有 𝑆 x 𝑆 个框，每的 bb 个数为 𝐵，分类器可以识别出 𝐶种不同的物体，那么所有整个ground truth 的长度为 𝑆×𝑆×(𝐵×5+𝐶)。YOLO v1 中，这个数量是 30，YOLO v2 和以后版本使用了自聚类的 anchor box 为bb, v2 版本为 𝐵=5, v3 中 𝐵=9。

四个关于位置的值，分别是 𝑥, 𝑦, ℎ和𝑤，均为整数实际预测中收敛慢。因此，需要对数据进行归一化在 0-1之间。例子是一个 448 x 448 的图片，有 3 x 3 的grid ，每个 cell 是149 。目标中心点是 (220,190)。

YOLO置信度

YOLO 损失函数

非极大值抑制（NMS)

NMS 核心思想是：选择得分最高的作为输出，与该输出重叠的去掉，不断重复这一过程直到所有备选处理完。

算法步骤

1. 首先丢弃概率小于预定IOU阈值（例如0.5）的所有边界框；2. 选择具有最高概率的边界框并将其作为输出预测；3. 计算“作为输出预测的边界框”，与其他边界框的相关联IoU值；舍去IoU大于阈值的边界框；其实就是舍弃与“作为输出预测的边界框”很相近的框；4. 重复步骤2，直到所有边界框都被视为输出预测或被舍弃。

预训练与训练

YOLO 先使用 ImageNet数据集对前 20 层卷积网络进行预训练，然后使用完整的网络，在PASCAL VOC数据集上进行对象识别和定位的训练和预测。
训练中采用了drop out 和数据增强来防止过拟合。
YOLO 的最后一层采用线性激活函数(因为要回归 bb 位置 )，其它层都是采用 Leaky ReLU 激活函数。