YOLO是一个EndToEnd目标检测的算法,相比于基于候选区域的目标检测算法(eg:RCNN,Fast RCNN等)速度更快,并且结构简单。
原论文地址:You only look once unified real-time object detection
简介
与先找到候选区域,然后对候选区域进行分类的多阶段目标检测算法不同,YOLO将目标识别看成一个回归问题,单个神经网络完成对整个图像目标边界框和类别概率的预测;
YOLO V1模型
该模型的核心理念如图1所示,将图像划分成S*S个单元格,每个单元格都要预测B个边界框(Bounding Box),每个边界框需要包含x,y,w,h,confidence五个预测值,其中(x,y)是边界框的中心点坐标,(w,h)是边界框的长和宽,codifdence是该边界框的置信度;
其中,(x,y)代表当前边界框的中心点相对于该中心点所在单元框的偏移,范围在(0,1);(w,h)代表边界框的长和宽除以图片的长和宽大小,范围也在(0,1);每个边界框的置信度代表边界框中含有目标可能性的大小以及边界框的准确度,训练过程中的表现形式是: P r ( O b j e c t ) ∗ I O U p r e d t r u t h Pr(Object)*IOU_ {pred} ^{truth} Pr(Object)∗IOUpredtruth;当单元框中不包含目标时, P r ( O b j e c t ) = 0 Pr(Object)=0 Pr(Object)