1 YOLO
1.1 Grid Cell
YOLO将输入图像分成S×S网格。 每个网格单元仅预测一个对象。 例如,下面的黄色网格单元试图预测其中心(蓝点)落在网格单元内的“人”对象。
每个网格单元预测固定数量的边界框。 在此示例中,黄色网格单元格进行两个边界框预测(蓝色框)以定位人员的位置。
但是,单对象规则限制了检测到的对象的接近程度。 为此,YOLO确实对物体的接近程度有一些限制。 对于下图,左下角有9个圣诞老人,但YOLO只能检测到5个。
For each grid cell,
- 预测B个边界框,每个框有一个框的置信度分数,
- 只检测一个对象而不管盒子B的数量,
- 预测C条件类概率(每个类对于对象类的可能性)。
To evaluate PASCAL VOC, YOLO uses 7×7 grids (S×S), 2 boundary boxes B and 20 classes C.
Each boundary box contains 5 elements: (x, y, w, h) and a box confidence score. 其中x,y是指当前格子预测得到的物体的bounding box的中心位置的坐标。w,h是bounding box的宽度和高度。注意:实际训练过程中,w和h的值使用图像的宽度和高度进行归一化到[0,1]区间内;x,y是bounding box中心位置相对于当前格子位置的偏移值,并且被归一化到[0,1]。
置信度得分反映了盒子包含对象(对象性)的可能性以及边界框的准确程度。
Hence, x, y, w and h are all between 0 and 1. Each cell has 20 conditional class probabilities. The conditional class probability is the probability that the detected object belongs to a particular class (one probability per category for each cell).
So, YOLO’s prediction has a shape of ( S , S , B × 5 + C ) = ( 7 , 7 , 2 × 5 + 20 ) = ( 7 , 7 , 30 ) (S, S, B×5 + C) = (7, 7, 2×5 + 20) = (7, 7, 30) (S,S,B×5+C)=(7,7,2×5+