YOLO v1论文详解

最新推荐文章于 2024-06-26 15:04:49 发布

dexterod

最新推荐文章于 2024-06-26 15:04:49 发布

阅读量3.1k

点赞数 3

分类专栏：图像目标检测

本文链接：https://blog.csdn.net/dexterod/article/details/104503852

版权

YOLO v1：一体化的，实时物体检测

声明：笔者翻译论文仅为学习研究，如有侵权请联系作者删除博文，谢谢！
源论文地址：https://arxiv.org/pdf/1506.02640.pdf
注：文字中标粗和亮色的部分为笔者认为有创新改进余地和需要注意的地方，斜体部分为笔者的一些想法，因水平所限，部分笔触可能有不实和错误之处，敬请广大读者批评指正，让我们一起进步~

PS: 首先推荐一篇笔者读到后解了很多疑惑的博文：
https://zhuanlan.zhihu.com/p/46691043

YOLO V2/ YOLO V3的论文详解见：YOLO V2 | YOLO V3

摘要

我们介绍一种新的物体检测方法YOLO。与先前的物体检测方法是重新设置分类器来执行检测不同，我们将物体检测方法看做一个回归问题，去预测空间分离的边界框和相关类别概率。单个神经网络从整个图片中一次性预测边界框和类别概率。由于整个检测流程是一个单一网络，所以可以进行端到端的直接对检测性能进行优化。
　　我们的这种单一网络结构体系速度非常快。我们的基本YOLO模型实时处理图像速度为每秒45帧。较小的YOLO模型版本，Fast YOLO可以实现每秒155帧的实时检测速度，同时实现mAP是其他物体检测网络的两倍左右。与当前最先进的物体检测方法相比，YOLO会出现较多的定位误差，但是从背景中检测出假阳性目标较少。最后，YOLO可以学习物体非常抽象的特征，所以在自然图像之外的其他检测领域比如艺术品的检测中，YOLO优于包括DPM和R-CNN在内的其他检测方法。

1 介绍

人们只需瞥一眼图片就知道图片中有什么物体，物体的位置及它们之间的联系。人类的视觉系统是快速而准确的，使我们可以做很复杂的事，比如开车时不用刻意去思考。快速，准确的物体检测算法将允许计算机在没有专用传感器的情况下驾驶汽车，使辅助设备能够向人类用户传达实时场景信息，并释放通用，响应式机器人系统的潜力。
　　当前的检测系统重新利用分类器来执行检测。为了检测物体，这些系统为该物体提供一个分类器，并在不同的位置评估它，并在测试图像中进行缩放。像可变形零件模型（DPM）这样的系统使用滑动窗口方法，其中分类器在整个图像上以均匀间隔的位置运行[10]。
最近的方法比如R-CNN使用候选区域的方法，首先在图像中生成候选框，然后在候选框上运行分类器。分类之后，后续的操作是优化边界框、消除重复检测，最后根据图像中其他物体来重新定位边界框。这些复杂的流程很慢而且优化困难，因为每个组件都需要单独训练。
　　我们将物体检测系统，输入图像像素、输出边界框坐标和类概率，重新设计为一个回归问题。使用我们的系统，只需运行一次就可以知道图像中有什么物体以及物体的位置。（YOLO v1整体思想）

图一：YOLO检测系统，YOLO处理图像简单直接，我们的系统（1）调整输入图像大小为448*448。（2）运行单个卷积网络处理图像。（3）用模型的置信度对检测结果进行阈值处理。

YOLO非常简单：参考图1，单个神经网络可以同时预测多个边界框和类概率，YOLO直接在整个图像上训练，并直接优化检测性能。这个统一的模型比传统的物体检测方法有几个优势。
　　第一，YOLO速度非常快。由于我们的检测是当做一个回归问题，不需要很复杂的流程。在测试的时候我们只需将一个新的图片输入网络来检测物体。在Titan X GPU上我们的基本网络检测速度可以实现45帧每秒，快速版本检测速度可以达到155帧每秒。这意味着我们可以以小于25毫秒的延迟处理流媒体视频。此外YOLO相比其他实时检测系统可以达到两倍的mAP，请参阅我们的项目网页http://pjreddie.com/yolo/.，上面有我们项目在网络摄像头上的实时运行演示。
　　第二，YOLO在预测时可以整体的检测图像。与基于滑动窗口和候选区域的方法不同，在训练和测试期间YOLO可以看到整个图像，所以它隐式的编码相关类的上下文信息及外观。Fast R-CNN是一种当前顶级的检测方法，但由于它无法看到更大的上下文信息所以会从背景中检测出错误的物体，YOLO出现背景误差的概率是Fast R-CNN的一半。（R-CNN系列的通病，无上下文，包括锚点出现以后，不断的组合也是，会漏掉一些目标信息）
　　第三，YOLO学习图像的抽象特征。当在自然图像上进行训练，并在艺术品上测试时，YOLO的效果大幅优于DPM和R-CNN等顶级检测方法。由于YOLO是高度抽象化的，所以在应用到新的领域或者有意外输入时不太会出现故障。
　　YOLO 在检测准确率上仍然大幅落后于最好的检测方法。虽然YOLO可以很快的识别出图像中的物体，但是在精准定位物体尤其是较小的物体位置上还需要更多的努力。我们在实验中正进一步测试如何平衡这些方面。
　　我们所有的训练和测试代码都是开源的，还提供一些预训练的模型可供下载。

2 一体化检测

我们将物体检测的单独组件集成到一个神经网络中。我们的网络使用整个图像的特征来预测每个边界框，网络还同时预测所有类的所有边界框，这也就意味着我们的网络全面的预测整个图像和图像中的所有的类。YOLO网络的设计保证能够实现端到端的训练和实时检测的速度，同时实现较高的检测平均精度。
在这里插入图片描述

图片2：网络模型。我们的模型将检测当做一个回归问题，网络将输入图像划分成 S×S个网格，每个网格预测B个边界框，B个confidence，一个C位的条件类别概率。

我们的系统将输入图像划分成S × S个网格。如果一个物体的中心点在某个网格中，则这个网格负责检测这个物体。每个网格单元预测B个边界框以及每个边界框的confidence（置信度）。这些confidence反映了网络模型对该边界框是否含有物体的信心，以及边界框位置预测的准确度。在形式上我们将confidence定义为 C = Pr(Object) ∗ IOU truth pred(Pr(Object)表示：网格存在物体为1，不存在为0)，如果网格中不包含物体则Pr(Object) = 0则confidence为0,包含物体Pr(Object) = 1则confidence等于预测边界框和真实边界框的IOU(交并比)。
　　每个边界框有5个预测值：x，y，w，h，confidence，（x，y）代表预测边界框的中心点坐标，w，h是边界框的宽度和高度，confidence是预测边界框和真实边界框的IOU。
　　每个网格预测C个条件类别概率， Pr(Class i |Object)，这是网格中含有物体的条件下属于某个类别的概率，每个网格预测一组条件类别概率，B个边界框公用。（这是否就导致了YOLOv1检测小物体困难且密集度大+种类多时无法鉴别的原因？每个网格可能有多个物体，却只能检测一种类别。）
　　测试时我们将条件类概率和confidence相乘，为我们提供了每个边界框在各个类别的得分值，这些得分值代表该类别物体出现在框中的概率和边界框与物体的拟合程度。
（每一个网格就是一个处理单元，首先进行多目标（B个）定位，然后进行多目标分类（C类，就是全部种类），得到定位的检测框中目标属于某个类别的概率，然后挨个比较取分类概率最高值即为该类。）