YOLO系列（一）——YOLO，YOLOv2，YOLO9000

最新推荐文章于 2024-08-27 11:19:21 发布

爱弹ukulele的程序猿

最新推荐文章于 2024-08-27 11:19:21 发布

阅读量479

点赞数

分类专栏：计算机视觉

本文链接：https://blog.csdn.net/qq_38622495/article/details/84523360

版权

这篇博客深入解析YOLO（You Only Look Once）目标检测框架，从YOLO的基本原理开始，包括网格细胞、网络设计、损失函数，特别关注分类和定位损失。接着介绍了YOLOv2的改进策略，如批量归一化、高分辨率分类器和锚点框，以及YOLO9000的拓展。文章详述了训练过程和优缺点，展示了如何处理目标检测中的重复检测问题。

摘要由CSDN通过智能技术生成

1 YOLO

1.1 Grid Cell

YOLO将输入图像分成S×S网格。每个网格单元仅预测一个对象。例如，下面的黄色网格单元试图预测其中心（蓝点）落在网格单元内的“人”对象。
在这里插入图片描述
每个网格单元预测固定数量的边界框。在此示例中，黄色网格单元格进行两个边界框预测（蓝色框）以定位人员的位置。
Each grid cell make a fixed number of boundary box guesses for the object.

但是，单对象规则限制了检测到的对象的接近程度。为此，YOLO确实对物体的接近程度有一些限制。对于下图，左下角有9个圣诞老人，但YOLO只能检测到5个。
在这里插入图片描述

For each grid cell,

预测B个边界框，每个框有一个框的置信度分数，
只检测一个对象而不管盒子B的数量，
预测C条件类概率（每个类对于对象类的可能性）。

To evaluate PASCAL VOC, YOLO uses 7×7 grids (S×S), 2 boundary boxes B and 20 classes C.
在这里插入图片描述
Each boundary box contains 5 elements: (x, y, w, h) and a box confidence score. 其中x,y是指当前格子预测得到的物体的bounding box的中心位置的坐标。w,h是bounding box的宽度和高度。注意：实际训练过程中，w和h的值使用图像的宽度和高度进行归一化到[0,1]区间内；x，y是bounding box中心位置相对于当前格子位置的偏移值，并且被归一化到[0,1]。

置信度得分反映了盒子包含对象（对象性）的可能性以及边界框的准确程度。
Hence, x, y, w and h are all between 0 and 1. Each cell has 20 conditional class probabilities. The conditional class probability is the probability that the detected object belongs to a particular class (one probability per category for each cell).
So, YOLO’s prediction has a shape of $(S, S, B \times 5 + C) = (7, 7, 2 \times 5 +$