yolo算法

我们介绍YOLO,一种新的物体检测方法。先前的物体检测工作重新设置分类器来执行检测。 相反,我们将对象检测框架化为空间分离边界框和相关类别概率的回归问题。 单个神经网络在一次评估中直接从完整图像预测边界框和类概率。 由于整个检测流水线是单个网络,因此可以直接针对检测性能端到端地进行优化。

我们的统一架构非常快。 我们的基础YOLO模型以45帧/秒的速度实时处理图像。 较小版本的网络Fast YOLO每秒处理惊人的155帧,同时实现其他实时检测器的mAP的两倍。 与最先进的检测系统相比,YOLO产生更多的定位误差,但不太可能预测背景上的误报。 最后,YOLO学习对象的非常一般的表示。 它比其他检测方法(包括DPM和R-CNN)在从自然图像推广到其他领域(如图稿)时更胜一筹。

一、介绍

人们瞥视图像,立即知道图像中的物体,它们在哪里以及它们如何相互作用。 人类的视觉系统是快速和准确的,使我们能够执行复杂的任务,例如驾驶时几乎没有意识的想法。 快速,准确的目标检测算法可以让计算机在没有专门传感器的情况下驾驶汽车,帮助辅助设备向人类用户传达实时的场景信息,并释放通用目标响应性机器人系统的潜力。
当前的检测系统将分类器重新用于执行检测。 为了检测对象,这些系统为该对象提供分类器并在不同的位置进行评估并在测试图像中进行缩放。 像变形零件模型(DPM)这样的系统使用滑动窗口方法,其中分类器在整个图像上的均匀间隔位置处运行。
最近的方法,如R-CNN使用区域建议方法首先在图像中生成潜在的边界框,然后在这些建议的框上运行分类器。 分类后,后处理用于细化边界框,消除重复检测,并根据场景中的其他对象重新定位框。 这些复杂的管道很慢,很难优化,因为
每个组件都必须单独进行培训。

我们将对象检测重新设计为单一回归问题,从图像像素到边界框坐标和类概率。使用我们的系统,您只需在图像上看一次(YOLO),即可预测出存在的物体以及它们在哪里.
YOLO很简单:参见图1.单个卷积网络可同时预测这些盒子的多个边界框和类概率。 YOLO训练全图像并直接优化检测性能。 这种统一的模型与传统的物体检测方法相比有几个优点。

这里写图片描述

图1:YOLO检测系统。 用YOLO处理图像简单而直接。 我们的系统(1)将输入图像调整为448×448,(2)在图像上运行单个卷积网络,并且(3)根据模型的置信度对检测结果进行阈值限制

首先,YOLO速度非常快。 由于我们将检测视为回归问题,因此我们不需要复杂的管道。我们只是在测试的时候在一幅新图像上运行我们的神经网络来预测检测结果。 我们的基础网络以每秒45帧的速度运行,Titan XGPU上没有批处理,而快速版本运行速度超过150 fps。 这意味着我们可以在不到25毫秒的延迟时间内实时处理流媒体视频。 此外,YOLO实现了其他实时系统平均精度的两倍以上。 有关我们的系统在网络摄像头上实时运行的演示,请参阅我们的项目网页:

其次,在进行预测时,YOLO会在全球范围内对图像产生原因。 与基于滑动窗口和候选区域的技术不同,YOLO在训练和测试时间期间看到整个图像,因此它隐式地编码关于类的上下文信息以及它们的外观。Fast R-CNN是一种顶级检测方法,因为它无法看到较大的图像上下文。 与Fast R-CNN相比,YOLO的背景错误数量少了一半。

第三,YOLO学习物体的一般化表示。 在对自然图像进行训练并在艺术品上进行测试时,YOLO大幅优于DPM和R-CNN等顶级检测方法。 由于YOLO具有高度概括性,因此在应用于新域或意外输入时不太可能发生故障。

YOLO在准确性方面仍落后于最先进的检测系统。 虽然它可以快速识别图像中的物体,但它正努力精确定位某些物体,尤其是小物体。 我们在实验中进一步检查了这些折衷。

我们所有的培训和测试代码都是开源的。 各种预训练模型也可以下载。

二、统一检测

我们将对象检测的单独组件集成到单个神经网络中。 我们的网络使用整个图像的特征来预测每个边界框。它还同时预测图像中所有类的所有边界框。这意味着我们的网络在全球范围内关于整个图像和图像中的所有对象都有意义。YOLO设计可实现端到端培训和实时速度,同时保持较高的平均精度。

我们的系统将输入图像划分为S×S网格。如果对象的中心落入网格单元格中,则该网格单元格负责检测该对象。

每个网格单元预测这些框的B边界框和置信度分数。这些置信度分数反映了模型对盒子是否包含对象的信心,以及盒子预测的盒子准确度。在形式上,我们将置信值定义为这里写图片描述
如果该单元格中不存在对象,则置信度分数应该是零。 否则,我们希望信心分数等于预测框与地面真值之间的联合(IOU)交点。

每个边界框由5个预测组成:x,y,w,h,和信心。 (x,y)坐标表示相对于网格单元边界的框的中心。 宽度和高度是相对于整个图像预测的。 最后,置信度预测表示预测框与任何地面实况框之间的IOU。

每个网格单元还预测C条件类概率Pr(Class i | Object)。 这些概率取决于包含对象的网格单元。 我们只预测每个网格单元的一组类别概率,而不管boxes的数量是多少。

在测试时间,我们乘以条件类概率和单个盒子置信度预测,
这里写图片描述
这为我们提供了每个箱子特定类的置信度分数。 这些分数编码该类出现在盒子中的概率以及预测盒子如何适合该对象。

这里写图片描述

图2:模型。 我们的系统将检测模型化为回归问题。 它将图像划分为S×S网格,并且每个网格单元预测B个边界框,这些框的置信度和C类概率。 这些预测被编码为一个S×S×(B * 5 + C)张量

为了评估P ASCAL VOC的YOLO,我们使用S = 7,B = 2. P ASCAL VOC有20个标记类,所以C = 20。我们的最终预测是7×7×30张量。

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值