YOLO:实时目标检测

最新推荐文章于 2025-04-24 18:48:03 发布

LeadAI学院

最新推荐文章于 2025-04-24 18:48:03 发布

阅读量8.2k

点赞数 3

本文链接：https://blog.csdn.net/leadai/article/details/78662039

版权

YOLO（You Only Look Once）是一种实时目标检测系统，能检测20种PASCAL VOC对象，如人、动物、交通工具等。相较于传统分类器或定位器，YOLO通过一次性处理整张图片进行预测，速度快且结合了全局信息。本文介绍了YOLO的原理、优势，以及如何使用DarkNet框架进行目标检测，包括加载预训练模型、调整阈值、使用CUDA加速等。此外，还提到了不同规模的YOLO模型，如yolo-tiny，以适应不同性能需求。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

北京 | 深度学习与人工智能研修

12月23-24日

再设经典课程重温深度学习阅读全文 >

一瞥(You Only Look Once, YOLO)，是检测Pascal VOC（http://host.robots.ox.ac.uk:8080/pascal/VOC/） 2012数据集内对象/目标的系统，能够检测出20种Pascal对象：

人person

鸟bird、猫cat、牛cow、狗dog、马horse、羊sheep

飞机aeroplane、自行车bicycle、船boat、巴士bus、汽车car、摩托车motorbike、火车train

瓶子bottle、椅子chair、餐桌dining table、盆景potted plant、沙发sofa、显示器tv/monitor

YOLO由以下参与者共同完成：Santosh、Ross和Ali，详细内容参见其paper（http://arxiv.org/abs/1506.02640）

以下教程分为9部分（不要害怕，easy），运行系统Ubuntu 14.04。OpenCV、cuda、GPU这些依赖是可选项，如果没有也可以，就是慢点(其实是慢很多)啦。最后会添加一下官网教程中没有的安装错误和修改信息。

本篇教程内容全部翻译自官网（http://pjreddie.com/darknet/yolo/）

1、How It Works

先前的检测系统多使用分类器(classifier)或者定位器(localizer)进行检测任务，把图片的不同局部位置和多种尺度输入到模型中去，图片得分较高的区域(region)作为检测目标。

YOLO是一个全新的方法，把一整张图片一下子应用到一个神经网络中去。网络把图片分成不同的区域，然后给出每个区域的边框预测和概率，并依据概率大小对所有边框分配权重。最后，设置阈值，只输出得分（概率值）超过阈值的检测结果。

输入-检测-输出

我们的模型相比于基于分类器的模型有一些优势，在测试阶段，整张图片一次输入到模型中，所以预测结果结合了图片的全局信息。同时，模型只是用一次网络计算来做预测，而在R-CNN中一张图片就需要进行上千次的网络计算！所以YOLO非常快，比R-CNN快1000倍，比Fast R-CNN快100倍。整个系统的细节见paper（http://arxiv.org/abs/1506.02640）

2、Detection Using A Pre-Trained Model

本节内容会知道你如何使用YOLO预训练好的模型进行目标检测。在这之前，你应该安装好DarkNet，安装方法戳这里（http://pjreddie.com/darknet/install/）。

安装好DarkNet之后，在darknet的子目录cfg/下已经有了一些网络模型的配置文件，在使用之前，需要下载好预训练好的权重文件yolo.weights（http://pjreddie.com/media/files/yolo.weights）(1.0 GB)。

现在，使用DarkNet的yolo命令进行一下测试吧（假设你在darknet/目录下，自己修改好yolo.weights和image的路径）

./darknet yolo test cfg/yolo.cfg <path>/yolo.weights <image>

如果你没有现成的图片，不妨直接使用darknet/data/下面的某张图片。

进行上面的测试，Darknet会打印出检测到的目标对象和可信度，以及耗时。使用CPU时，每张图片耗时为6-12秒，GPU版本会快，快很多。

如果安装DarkNet的时候，没有使用OpenCV，上面的测试不会直接显示出图片结果，你需要自己手动打开predictions.png. 打开你会看到类似于下图的预测结果。

predictions.png

如果想运行一次DarkNet检测多张图片的话，你应该先运行以下命令载入预训练模型

./darknet yolo test cfg/yolo.cfg yolo.weights

模型载入成功后，会提示输入图片路径Enter Image Path：

键入类似于data/eagle.jpg的路径，检测这张图片，给出结果之后，会继续提示Enter Image Path。注意如果你连续输入了多张图片，之前的结果会被下一次的检测结果覆盖掉，因为预测结果都叫predictions.jpg。。。要退出/中断程序的话，直接键入Ctrl-C（自己记住这个命令，后面会再用）即可。

3、A Smaller Model

上面的YOLO模型会占用很多GPU内存，方法类似，只需要调用不同的配置文件，载入相应的权重文件即可。在这里，提供一个更小版本的模型，使用yolo-small.cfg配置文件，调用yolo-small.weights（http://pjreddie.com/media/files/yolo-small.weights）(359MB)，命令如下