You Only Look Once: Unified, Real-Time Object Detection

最新推荐文章于 2023-06-05 17:10:31 发布

原创

最新推荐文章于 2023-06-05 17:10:31 发布 · 9.5k 阅读

20 ·

CC 4.0 BY-SA版权

文章标签：

#物体检测

YOLO（You Only Look Once）是一种基于深度学习的实时物体检测方法，以其快速和高准确性受到关注。该方法将物体检测转化为回归问题，通过网络结构设计，实现了在Titan X GPU上45帧每秒的速度。YOLO使用全图上下文信息，减少背景误判，且具有较好的泛化能力。在训练策略上，采用预训练、调整学习率、加大定位误差权重等手段提高性能。尽管在小尺度物体检测和多物体共存一格时存在局限，但其速度优势使其在实时应用中具有显著价值。

You Only Look Once: Unified, Real-Time Object Detection

背景介绍

在深度神经网络之前，早期的 Object detection 方法是通过提取图像的一些 robust 的特征如（ Haar，SIFT，HOG ）等特征，使用 DPM 模型，用 silding window 的方式来预测具有较高 score 的 bounding box。这种方式非常耗时，而且精度又不怎么高。

Selective Search （可以参考我之前的博文）的方法，相比于 sliding window 这中穷举的方式，减少了大量的计算，同时在性能上也有很大的提高。

利用 Selective Search 提出的 region proposals 结合卷积神经网络的R-CNN的方法提出后，Object detection 的性能有了一个质的飞越。基于 R-CNN 发展出来的 SPPnet、Fast R-CNN、Faster R-CNN 等方法，证明了 “Proposal + Classification” 的方法在 Objection Detection 上的有效性。

相比于 R-CNN 系列的方法，该论文提供了另外一种思路，将 Object Detection 的问题转化成一个 Regression 问题。给定输入图像，直接在图像的多个位置上回归出目标的 bounding box 以及其分类类别。

YOLO的主要特点

速度快，能够达到实时的要求。在 Titan X 的 GPU 上能够达到 45 帧每秒。
使用全图作为 Context 信息，背景错误（把背景错认为物体）比较少。
泛化能力强。在自然图像上训练好的结果在艺术作品中的依然具有很好的效果。

论文概要

给定输入图像，将图像分割成 $S * S$ （实验中 $S = 7$ ）个网格。如果一个物体 Ground Truth 的中心落在某个网格中，那么在训练过程中，该网格就负责对该物体的 Bounding Box 进行回归。

每个网格都预测 $B$ （实验中 $B = 2$ ）个 Bounding Box（ $x,y,w,h$ ）以及相应的置信度。这个置信度的值用于反映这个 Box 是否包含物体，以及与 Ground Truth 的 IOU 值。那么这个置信度就可以定义为 $Pr(Object) * IOU_{pred}^{truth}$ 。当这个 Box 不包含物体时，那么这个置信度应该为 0，如果包含物体，那么这个置信度应该等于与 Ground Truth 的 IOU 值。在实验中， $B$ 之所以取值为 2，一方面预测多个 Box 可以提高预测的精度（多个 Box 取最大的 IOU 值），另一方面又不会增加太多计算量。在预测 Box 的位置时， $(x,y)$ Box 中心位置相对于对应的网格的偏移（归一化到0~1）， $(w,h)$ 是相对于全图的值（归一化到0~1）。每张图像，最后预测出来的结果维度为 $S * S * (B * 5 + C)$ ，在 Pascal VOC 上，最后预测出来的结果维度 7*7*30。