You Only Look Once: Unified, Real-Time Object Detection

You Only Look Once: Unified, Real-Time Object Detection


背景介绍


   在深度神经网络之前,早期的 Object detection 方法是通过提取图像的一些 robust 的特征如( Haar,SIFT,HOG )等特征,使用 DPM 模型,用 silding window 的方式来预测具有较高 score 的 bounding box。这种方式非常耗时,而且精度又不怎么高。

   Selective Search (可以参考我之前的 博文 ) 的方法,相比于 sliding window 这中穷举的方式,减少了大量的计算,同时在性能上也有很大的提高。

   利用 Selective Search 提出的 region proposals 结合卷积神经网络的R-CNN的方法提出后,Object detection 的性能有了一个质的飞越。基于 R-CNN 发展出来的 SPPnet、Fast R-CNN、Faster R-CNN 等方法,证明了 “Proposal + Classification” 的方法 在 Objection Detection 上的有效性。

   相比于 R-CNN 系列的方法,该论文提供了另外一种思路,将 Object Detection 的问题转化成一个 Regression 问题。给定输入图像,直接在图像的多个位置上回归出目标的 bounding box 以及其分类类别。

YOLO的主要特点

  • 速度快,能够达到实时的要求。在 Titan X 的 GPU 上 能够达到 45 帧每秒。
  • 使用全图作为 Context 信息,背景错误(把背景错认为物体)比较少。
  • 泛化能力强。在自然图像上训练好的结果在艺术作品中的依然具有很好的效果。



论文概要


   给定输入图像,将图像分割成 SS (实验中 S=7 )个网格。如果一个物体 Ground Truth 的中心落在某个网格中,那么在训练过程中,该网格就负责对该物体的 Bounding Box 进行回归。

   每个网格都预测 B (实验中 B=2 )个 Bounding Box( x,y,w,h ) 以及相应的置信度。这个置信度的值用于反映这个 Box 是否包含物体,以及与 Ground Truth 的 IOU 值。那么这个置信度就可以定义为 Pr(Object)IOUtruthpred 。当这个 Box 不包含物体时,那么这个置信度应该为 0,如果包含物体,那么这个置信度应该等于与 Ground Truth 的 IOU 值。在实验中, B 之所以取值为 2,一方面预测多个 Box 可以提高预测的精度(多个 Box 取最大的 IOU 值),另一方面又不会增加太多计算量。在预测 Box 的位置时, (x,y) Box 中心位置相对于对应的网格的偏移(归一化到0~1), (w,h) 是相对于全图的值(归一化到0~1)。每张图像,最后预测出来的结果维度为 SS(B5+C) ,在 Pascal VOC 上,最后预测出来的结果维度 7*7*30。

   与此同时,每个网格还预测 C 个类别物体的条件概率 Pr(Classi|Object) 注意这里是每个网格,而不是每个 Box。 在测试阶段,可以利用公式

Pr(Classi|Object
  • 5
    点赞
  • 20
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值