YOLO(You Only Look Once: Unified, Real-Time Object Detection)是一种2016年提出的用于视觉检测的算法,与之前的算不同,YOLO改变了检测的过程将检测转化为了一个回归问题,输出目标的bbox和p(概率)。相较于之前的算法,YOLO的执行速度很快,base YOLO可以达到45fps而fast YOLO可以达到155fps,基本可以满足实时的检测和输出,延时也将小于25ms。从结果上看,YOLO的局部检测效果较差,但也很少出现FP现象,同时YOLO对于大型目标的检测相对效果好且不易误判为背景。(对于检测结果存在四种可能:TP,FP,FN,TN)
YOLO的设计思想来源于人眼的单次观看识别,将图像整体作为YOLO的输入,经过resize,run cnn,NMS三个步骤即可得到输出。
网络特点:1.由于网络的结构十分简单,因此网络的识别速度很快,相较于同期的实时算法YOLO达到了两倍以上的准确率。
2.由于检测以整个图像作为输入,内部数据联系紧密,降低了背景的错误识别。
3.网络的适应性较好,在测试集与训练集不完全一致时仍能有较好效果。
网络将采用来自整张图片的特征同时对所有的目标进行检测和bbox预测,网络是一种端到端的结构,对于输入的图片可以直接输出bbox和p。对于输入图片将划分成SS个网格区域,检测目标的中心与所在网格关联。每个划分的网格都将产出B个bbox和score&#x