12月23-24日
一瞥(You Only Look Once, YOLO),是检测Pascal VOC(http://host.robots.ox.ac.uk:8080/pascal/VOC/) 2012数据集内对象/目标的系统,能够检测出20种Pascal对象:
人person
鸟bird、猫cat、牛cow、狗dog、马horse、羊sheep
飞机aeroplane、自行车bicycle、船boat、巴士bus、汽车car、摩托车motorbike、火车train
瓶子bottle、椅子chair、餐桌dining table、盆景potted plant、沙发sofa、显示器tv/monitor
YOLO由以下参与者共同完成:Santosh、Ross和Ali,详细内容参见其paper(http://arxiv.org/abs/1506.02640)
以下教程分为9部分(不要害怕,easy),运行系统Ubuntu 14.04。OpenCV、cuda、GPU这些依赖是可选项,如果没有也可以,就是慢点(其实是慢很多)啦。最后会添加一下官网教程中没有的安装错误和修改信息。
本篇教程内容全部翻译自官网(http://pjreddie.com/darknet/yolo/)

先前的检测系统多使用分类器(classifier)或者定位器(localizer)进行检测任务,把图片的不同局部位置和多种尺度输入到模型中去,图片得分较高的区域(region)作为检测目标。
YOLO是一个全新的方法,把一整张图片一下子应用到一个神经网络中去。网络把图片分成不同的区域,然后给出每个区域的边框预测和概率,并依据概率大小对所有边框分配权重。最后,设置阈值,只输出得分(概率值)超过阈值的检测结果。
输入-检测-输出
我们的模型相比于基于分类器的模型有一些优势,在测试阶段,整张图片一次输入到模型中,所以预测结果结合了图片的全局信息。同时,模型只是用一次网络计算来做预测,而在R-CNN中一张图片就需要进行上千次的网络计算!所以YOLO非常快,比R-CNN快1000倍,比Fast R-CNN快100倍。整个系统的细节见paper(http://arxiv.org/abs/1506.02640)

本节内容会知道你如何使用YOLO预训练好的模型进行目标检测。在这之前,你应该安装好DarkNet,安装方法戳这里(http://pjreddie.com/darknet/install/)。
安装好DarkNet之后,在darknet的子目录cfg/下已经有了一些网络模型的配置文件,在使用之前,需要下载好预训练好的权重文件yolo.weights(http://pjreddie.com/media/files/yolo.weights)(1.0 GB)。
现在,使用DarkNet的yolo命令进行一下测试吧(假设你在darknet/目录下,自己修改好yolo.weights和image的路径)
./darknet yolo test cfg/yolo.cfg <path>/yolo.weights <image>
如果你没有现成的图片,不妨直接使用darknet/data/下面的某张图片。
进行上面的测试,Darknet会打印出检测到的目标对象和可信度,以及耗时。使用CPU时,每张图片耗时为6-12秒,GPU版本会快,快很多。
如果安装DarkNet的时候,没有使用OpenCV,上面的测试不会直接显示出图片结果,你需要自己手动打开predictions.png. 打开你会看到类似于下图的预测结果。
predictions.png
如果想运行一次DarkNet检测多张图片的话,你应该先运行以下命令载入预训练模型
./darknet yolo test cfg/yolo.cfg yolo.weights
模型载入成功后,会提示输入图片路径Enter Image Path:
键入类似于data/eagle.jpg的路径,检测这张图片,给出结果之后,会继续提示Enter Image Path。注意如果你连续输入了多张图片,之前的结果会被下一次的检测结果覆盖掉,因为预测结果都叫predictions.jpg。。。要退出/中断程序的话,直接键入Ctrl-C(自己记住这个命令,后面会再用)即可。

上面的YOLO模型会占用很多GPU内存,方法类似,只需要调用不同的配置文件,载入相应的权重文件即可。在这里,提供一个更小版本的模型,使用yolo-small.cfg配置文件,调用yolo-small.weights(http://pjreddie.com/media/files/yolo-small.weights)(359MB),命令如下
./darknet yolo test cfg/yolo-small.cfg yolo-small.weights