1.摘要
本文提出一种新的目标检测方法YOLO。相比于以前的目标检测分类器,本文将目标的边界框检测和类别概率预测统一为一个回归问题,使得神经网络在预测时可直接从原始输入图像中预测边界框坐标和所属类别的概率。由于整个检测pipeline是单个网络,因此可以实现端到端预测(原始图像到输出的映射)。
本文的基础YOLO模型可以45帧/秒的速度实时处理图像,而较小版本的网络Fast YOLO每秒可处理155帧。
2.算法思想
本文将以往目标检测的各个单独步骤集成到一个神经网络中,使得网络基于整个图像的特征(全面地关注图像中的完整图像和所有目标)来预测所有类的所有边界框,实现端到端训练和实时检测的目的。
YOLO将输入图像划分为S×S个网格(输出层size),如果目标的中心落入网格单元格中,则由该网格单元格负责检测该目标。
a.每个网格单元将会预测B个框,每个边界框由5个预测组成:x,y,w,h和置信度。(x,y)坐标表示相对于网格单元边界的框的中心,宽度w和高度h是相对于整个图像预测的,置信度是Pr(Object)。若该单元格包含目标,则可计算出预测边界框的置信度,定义为Pr(Object)*IOU,此IOU是预测框与标注框之间的IOU;如果该单元格中不存在目标,则置信度分数应为零。
b.每个网格单元还预测目标的类条件概率,Pr(Classi|Object),即每个网格单元的