您只看一次(YOLO)是针对实时处理的对象检测系统。我们将在本文中介绍YOLO,YOLOv2和YOLOv3。这是YOLO官网提供各种模型的准确性和速度比较。
让我们从下面的测试图像开始
YOLO检测到的对象:
网格单元
为了便于讨论,我们裁剪了原始照片。YOLO将输入图像划分为S × S网格。每个网格单元仅预测一个对象。例如,下面的黄色网格单元试图预测其中心(蓝色点)落在网格单元内的“人”对象。
每个网格单元都预测固定数量的边界框。在此示例中,黄色网格单元格进行两个边界框预测(蓝色框)以定位人的位置。
但是,单对象规则限制了所检测对象的接近程度。为此,YOLO在对象近距离上确实有一些限制。对于下图,左下角有9个圣诞老人,但YOLO只能检测到5个。
对于每个网格单元:
它预测B个边界框,每个框都有一个框置信度得分
它只检测一个物体,而与盒子B的数量无关
它可以预测C个 条件类的概率(对于对象类的可能性,每个类一个)
为了评估PASCAL VOC,YOLO使用7×7网格(S×S),2个边界框(B)和20个类(C)
让我们来了解更多细节。每个边界框包含5个元素:(x,y,w,h)和一个框的置信度得分。置信度得分反映了框包含一个对象的可能性(objectness)以及边界框的准确性。我们通过图像的宽度和高度对边界框的宽度w和高度h进行归一化。x和y是对应
单元格的偏移量。因此,x,y,w和h都在0和1之间。每个像元都有20个条件类概率。该条件类概率是检测到的对象属于特定类别的概率(每个单元格每个类别一个概率)。因此,YOLO的预测形状为(S,S,B×5 + C)=(7,7,2×5 + 20)=(7,
7,30)。