You Oniy Look Once(YOLO):Unified，Real-Time Object Detection 翻译学习

最新推荐文章于 2021-12-21 19:36:53 发布

maple_0312

最新推荐文章于 2021-12-21 19:36:53 发布

阅读量531

点赞数

分类专栏：文献阅读文章标签：深度学习 YOLO 计算机视觉目标检测人工智能

本文链接：https://blog.csdn.net/qq_41206544/article/details/84439946

版权

YOLO（You Only Look Once）是一种快速、统一的实时目标检测系统，通过神经网络直接从图像中预测边界框和类别概率。相较于传统的基于分类器的目标检测方法，YOLO将检测视为回归问题，实现端到端的优化，能以高帧率运行并保持高平均精度。YOLO的局限在于对小目标的定位准确性较低，但其简单、快速的特性使其在实时应用中表现出色。

摘要由CSDN通过智能技术生成

You Oniy Look Once(YOLO):Unified，Real-Time Object Detection

摘要:我们提出了YOLO，是一种新的目标检测方法。先前的目标检测工作是重新使用分类器来执行检测。相反，我们将目标检测作为一个回归问题来实现空间分割的边框和相关分类的概率。在一次评估中，一个单一的神经网络直接从一幅完整的图像中预测边界框和每一类的概率。由于整个检测通道是一个单一的网络，可以直接从检测性能上进行端到端的优化。

我们统一的的架构可以进行非常快的执行。我们基本的YOLO模型可以实现每秒45帧的速度实时对视频流进行处理。对于一个更小的网络Fast YOLO处理速度达到了惊人的155帧每秒，依旧达到了其他检测方式的两倍。与最先进的检测系统进行比较，YOLO会产生较多的定位错误，但是不太可能在后台进行错误的预测。最后，YOLO学习了对象的一般表示。在将自然图像处理推广到其他领域时，他的性能优于其他算法，比如DMP以及R-CNN。

Introduction：

人类瞥一眼图像，就能知道图像中的物体是什么，他们在哪里，以及他们是如何相互作用的，人类的视觉系统是快速而且准确地，允许我们执行复杂的任务，比如驾驶，很少进行有意思的思考。快速准确的目标检测算法将允许计算机在没有专门传感器的情况下驾驶汽车，使用辅助设备能够向人类用户实时传递场景信息，并且为实现通用的，反应灵敏的机器人系统提供潜力。

目前的检测系统重新使用分类器来进行检测。为了检测一个对象，这些系统对该对象使用了一个分类器，并且在测试图像的不同位置和尺度上对其进行评估。像DPM这样的系统使用滑动窗口，在整个图像上的等距位置运行分类器。

许多最近的方法像R-CNN使用区域建议方法，首先在图像中生成潜在的检测区域，然后在这些潜在的建议区域上运行一个分类器。分类完成后，利用后期处理对边框进行细化，消除重复检测，并且根据场景中对其他对象对边框进行重新排序。这些复杂的路径非常缓慢并且难以优化，因为每个单独的组件都必须单独进行训练。

图1：YOLO检测系统。使用YOLO处理图像非常简单和直接图一作为输入，图二在卷积层上进行计算，图三直接输出检测目标的边框

YOLO真的非常简单，如图一所示。一个单一的卷积网络同时预测多个目标检测框和这些框的概率。YOLO对完整的图像进行训练，并且直接优化检测性能。与传统的目标检测方法相比，这种统一的模型有几个优点。

首先，YOLO确实非常快。由于我们的检测框架是一个回归问题，我们不需要一个特别复杂的路径。我们简单的在测试时对新图像运行神经网络来预测检测结果。我们的基础网络在Titan X的GPU上没有batch以每秒45帧的速度运行，另外快速的版本可以超过150帧的速度。这意味着我们可以在25ms延时内实现视频流的实时处理。此外，YOLO的平均精度是其他实时处理系统的两倍多。有一个我们的系统在网络摄像头上实时运行的demo，可以看我们的网页，http://pjreddie.com/yolo/

第二，YOLO在做出预测的同时，对这张图片做出了全方位的检测。与滑动窗口和基于区域建议的技术不同，YOLO在训练和测试期间可以看到整幅图像，所以他对类别的上下文信息以及他们的外观进行编码。Fast R-CNN是一种顶级的目标检测算法，但是由于无法看到更多的上下文信息，所以他有可能将背景块错误识别。与Fast R-CNN相比，YOLO对于背景错误产生的不到其一半。

第三，YOLO学习对象的可推广表示。在训练自然图像并在艺术品上测试的时候，YOLO比DPM和R-CNN等顶级检测算法表现的更加出色。由于YOLO具有高度的可概括性，当新领域的信息意外作为输入时，他不太可能崩溃。

但是YOLO检测的精度仍然落后于最先进的检测系统。虽然他可以快速识别图像中的对象，但是他很难精确的定位某些对象，尤其是一些非常小的对象。我们在实验中进一步做了一些权衡。

我们所有的训练代码都是开源的。各种预先训练的模型也可以提供下载。