You Only Look Once: Unified, Real-Time Object Detection
背景介绍
在深度神经网络之前,早期的 Object detection 方法是通过提取图像的一些 robust 的特征如( Haar,SIFT,HOG )等特征,使用 DPM 模型,用 silding window 的方式来预测具有较高 score 的 bounding box。这种方式非常耗时,而且精度又不怎么高。
Selective Search (可以参考我之前的 博文 ) 的方法,相比于 sliding window 这中穷举的方式,减少了大量的计算,同时在性能上也有很大的提高。
利用 Selective Search 提出的 region proposals 结合卷积神经网络的R-CNN的方法提出后,Object detection 的性能有了一个质的飞越。基于 R-CNN 发展出来的 SPPnet、Fast R-CNN、Faster R-CNN 等方法,证明了 “Proposal + Classification” 的方法 在 Objection Detection 上的有效性。
相比于 R-CNN 系列的方法,该论文提供了另外一种思路,将 Object Detection 的问题转化成一个 Regression 问题。给定输入图像,直接在图像的多个位置上回归出目标的 bounding box 以及其分类类别。
YOLO的主要特点
- 速度快,能够达到实时的要求。在 Titan X 的 GPU 上 能够达到 45 帧每秒。
- 使用全图作为 Context 信息,背景错误(把背景错认为物体)比较少。
- 泛化能力强。在自然图像上训练好的结果在艺术作品中的依然具有很好的效果。
论文概要
给定输入图像,将图像分割成 S∗S (实验中 S=7 )个网格。如果一个物体 Ground Truth 的中心落在某个网格中,那么在训练过程中,该网格就负责对该物体的 Bounding Box 进行回归。
每个网格都预测 B (实验中
与此同时,每个网格还预测 C 个类别物体的条件概率