深度学习：YOLO系列

最新推荐文章于 2024-08-15 07:00:00 发布

work_coder

最新推荐文章于 2024-08-15 07:00:00 发布

阅读量5.1k

点赞数 2

分类专栏：深度学习概要机器学习概要

本文链接：https://blog.csdn.net/weixin_41108334/article/details/83690784

版权

YOLO（You Only Look Once）是一种基于深度学习的目标检测方法，它将检测视为回归问题，速度快且适用于实时场景。YOLOv1通过全连接层预测目标位置和类别，但对小物体检测不敏感。YOLOv2引入了 anchor boxes 和 batch normalization 等改进策略，提高了检测精度和召回率。尽管如此，YOLO仍存在定位精度不高等问题。

摘要由CSDN通过智能技术生成

一、YOLO v1 (CVPR2016, oral) 将检测作为回归问题

基于end-to-end 网络设计

(You Only Look Once: Unified, Real-Time Object Detection)

可参考文章：https://zhuanlan.zhihu.com/p/27029015

Faster R-CNN的方法目前是主流的目标检测方法，但是速度上并不能满足实时的要求。YOLO一类的方法慢慢显现出其重要性，这类方法使用了回归的思想，利用整张图作为网络的输入，直接在图像的多个位置上回归出这个位置的目标边框，以及目标所属的类别。

1、YOLO训练和检测均是在一个单独的网络中进行，但是yolo没有rpn等层；
2、YOLO将物体检测作为一个回归问题来解决，输入一张图经过inference便能得到物体的位置和其所属的类别及其相应的置信度。

我们直接看上面YOLO的目标检测的流程图：

(1) 给个一个输入图像，首先将图像划分成7*7的网格
(2) 对于每个网格，我们都预测2个边框（包括每个边框是目标的置信度以及每个边框区域在多个类别上的概率）
(3) 根据上一步可以预测出7*7*2个目标窗口，然后根据阈值去除可能性比较低的目标窗口，最后非极大值抑制NMS去除冗余窗口即可。

可以看到整个过程非常简单，不再需要中间的Region Proposal找目标，直接回归便完成了位置和类别的判定。

24个卷积层提取特征，2个全连接层（预测图像位置和类别位置置信度）

小结：YOLO将目标检测任务转换成一个回归问题，大大加快了检测的速度，使得YOLO可以每秒处理45张图像。而且由于每个网络预测目标窗口时使用的是全图信息，使得false positive比例大幅降低（充分的上下文信息）。