论文链接:https://arxiv.org/pdf/1506.02640.pdf
tensorflow源码链接:https://github.com/nilboy/tensorflow-yolo/tree/python2.7/yolo
Ross Girshick提出的Faster R-CNN把目标检测的速度提高了一大步,在用Titan X时检测速度可以达到7fps,同时准确度达到73mAP。但在实际使用时这样的速度还是达不到实时的目地的,几乎在提出Faster R-CNN的同时,Joseph Redmon和Ross Girshick又提出了一种叫做YOLO的检测方法,速度可以达到45fps,YOLO的名字取自You only look once,从名字就能看出它的速度有多快。虽然45fps已经达到了实时的目标,但YOLO从出生那天起自身就带有很多的缺陷,最大的问题就是mAP只有63,这样的准确度就让实用价值打上了折扣,但不管怎么说作为第一个达到实时检测目标的结构YOLO还是有很多值得参考的地方的。
一、整体结构
YOLO之前的结构都会先对输入的图片提取要检测的区域(proposal),然后仅对proposal区域进行分类,因为整个过程分为提取proposal+检测两个阶段,速度就打了折扣。YOLO则直接砍掉了提取proposal的过程,一次回归就完成bbox位置、目标置信度、分类的工作。图1是它的基本结构:
图1:YOLO结构
<