论文题目:You Only Look Once: Unified, Real-Time Object Detection
论文地址:https://arxiv.org/pdf/1506.02640.pdf
代码地址:https://github.com/hizhangp/yolo_tensorflow
与RCNN系列不同,YOLO将物体检测看作一个单一的回归问题,直接从图像生成bounding box坐标和分类概率。只需要检测一次这张图像,就可以预测图像中存在的物体,并且得到它们所在的具体位置。RPN预测的是预测框和anchor的偏移量,而YOLO预测的是预测边界框中心点相对于对应cell左上角位置的相对偏移值。
一、论文解读
1、Model
YOLO将目标检测视为一个回归问题,它将图像划分为S*S个网格,如果物体的中心落入一个网格中,那么这个网格就负责检测这个物体,以及这些bounding boxes的位置、置信度、类别概率。置信度可以反应这个模型对boxes中是否含有物体和预测精确度的自信程度。定义置信度为:,如果这个网格中没有物体,就定义置信度为0,否则,置信度等于预测框和真实框的交并比。每个bounding box包含5个预测值:x、y、w、h、confidence,其中x、y代表相对与这个网格边界的预测框的中心,w、h为框的宽、高,confidence代表预测box和真实box的交并比IoU。预测结果可以用SxSx(B*5+C)个参数表示。在PASCAL VOC上运行YOLO,S=7,每个格子预测B=2个物体,PASCAL VOC有20个类别