You Oniy Look Once(YOLO):Unified,Real-Time Object Detection 翻译学习

You Oniy Look Once(YOLO):Unified,Real-Time Object Detection

摘要:我们提出了YOLO,是一种新的目标检测方法。先前的目标检测工作是重新使用分类器来执行检测。相反,我们将目标检测作为一个回归问题来实现空间分割的边框和相关分类的概率。在一次评估中,一个单一的神经网络直接从一幅完整的图像中预测边界框和每一类的概率。由于整个检测通道是一个单一的网络,可以直接从检测性能上进行端到端的优化。

       我们统一的的架构可以进行非常快的执行。我们基本的YOLO模型可以实现每秒45帧的速度实时对视频流进行处理。对于一个更小的网络Fast YOLO处理速度达到了惊人的155帧每秒,依旧达到了其他检测方式的两倍。与最先进的检测系统进行比较,YOLO会产生较多的定位错误,但是不太可能在后台进行错误的预测。最后,YOLO学习了对象的一般表示。在将自然图像处理推广到其他领域时,他的性能优于其他算法,比如DMP以及R-CNN。

  1. Introduction

人类瞥一眼图像,就能知道图像中的物体是什么,他们在哪里,以及他们是如何相互作用的,人类的视觉系统是快速而且准确地,允许我们执行复杂的任务,比如驾驶,很少进行有意思的思考。快速准确的目标检测算法将允许计算机在没有专门传感器的情况下驾驶汽车,使用辅助设备能够向人类用户实时传递场景信息,并且为实现通用的,反应灵敏的机器人系统提供潜力。

目前的检测系统重新使用分类器来进行检测。为了检测一个对象,这些系统对该对象使用了一个分类器,并且在测试图像的不同位置和尺度上对其进行评估。像DPM这样的系统使用滑动窗口,在整个图像上的等距位置运行分类器。

许多最近的方法像R-CNN使用区域建议方法,首先在图像中生成潜在的检测区域 ,然后在这些潜在的建议区域上运行一个分类器。分类完成后,利用后期处理对边框进行细化,消除重复检测,并且根据场景中对其他对象对边框进行重新排序。这些复杂的路径非常缓慢并且难以优化,因为每个单独的组件都必须单独进行训练。

图1:YOLO检测系统。使用YOLO处理图像非常简单和直接图一作为输入,图二在卷积层上进行计算,图三直接输出检测目标的边框

YOLO真的非常简单,如图一所示。一个单一的卷积网络同时预测多个目标检测框和这些框的概率。YOLO对完整的图像进行训练,并且直接优化检测性能。与传统的目标检测方法相比,这种统一的模型有几个优点。

首先,YOLO确实非常快。由于我们的检测框架是一个回归问题,我们不需要一个特别复杂的路径。我们简单的在测试时对新图像运行神经网络来预测检测结果。我们的基础网络在Titan X的GPU上没有batch以每秒45帧的速度运行,另外快速的版本可以超过150帧的速度。这意味着我们可以在25ms延时内实现视频流的实时处理。此外,YOLO的平均精度是其他实时处理系统的两倍多。有一个我们的系统在网络摄像头上实时运行的demo,可以看我们的网页,http://pjreddie.com/yolo/

第二,YOLO在做出预测的同时,对这张图片做出了全方位的检测。与滑动窗口和基于区域建议的技术不同,YOLO在训练和测试期间可以看到整幅图像,所以他对类别的上下文信息以及他们的外观进行编码。Fast R-CNN是一种顶级的目标检测算法,但是由于无法看到更多的上下文信息,所以他有可能将背景块错误识别。与Fast R-CNN相比,YOLO对于背景错误产生的不到其一半。

第三,YOLO学习对象的可推广表示。在训练自然图像并在艺术品上测试的时候,YOLO比DPM和R-CNN等顶级检测算法表现的更加出色。由于YOLO具有高度的可概括性,当新领域的信息意外作为输入时,他不太可能崩溃。

但是YOLO检测的精度仍然落后于最先进的检测系统。虽然他可以快速识别图像中的对象,但是他很难精确的定位某些对象,尤其是一些非常小的对象。我们在实验中进一步做了一些权衡。

我们所有的训练代码都是开源的。各种预先训练的模型也可以提供下载。

  1. Unified Detection

我们将目标检测的各个独立组件统一到一个神经网络中。我们的网络使用来自整个图像的特征来预测每一个对象的边框。他可以同时预测图像在所有类中的所有包围框。这意味着我们的网络对整个图像和图像中的所有对象进行了全局推理。YOLO这样的设计支持端到端的训练以及实时处理,同时能够保持较高的平均精度。

我们的系统将输入图像划分为S*S的网格,如果物品的中点落入了这个网格之中,那么这个网格将负责识别出这个对象。

每一个网格单元预测B个边界框以及每个边界框的置信分数。这些置信分数反映了这个模型预测该边界框包含某个对象的可能性以及模型认为对于这个边界框的预测有多高的准确率。我们使用公式

来定义置信度。如果该网格单元里没有物品,置信分数将为0。否则我们定义置信分数为预测边界框和真实边界框的IOU。

       每一个边界框包含5个预测值:x, y, w, x以及置信分数。(x,y)表示边界框相对于当前网格单元的位置。Weight和height是根据整张图片的比例进行预测的。最后最后置信分数表示了预测边界框和真实边界框的IOU。

       每个网格单元也同时预测属于C类别的条件概率Pr(classi|Object)

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值