You Only Look Once:
Unified, Real-Time Object Detection
论文下载:http://arxiv.org/abs/1506.02640
(本篇多为一些理论上的内容,比较枯燥,难懂,建议拿一张纸,边看边记,多动脑。)
- 1 YOLO基本思路
将一幅图像分成 SxS 个网格(grid cell)(论文中以7*7为例,所以后面数据均以7*7计算),如果某个物体的中心落在这个网格中,则这个网格就负责预测这个物体。(注:是物体中心落在这个网格中,并不是物体的某一部分落在这个网格中,如图所示,有3个物体,狗,自行车,汽车,则物体中心点对于的grid cell负责对于物体的预测。)
每个网格中有B个边界值(bounding