综述|基于深度学习的目标检测(一)

最新推荐文章于 2024-08-20 16:32:49 发布

daydayup_668819

最新推荐文章于 2024-08-20 16:32:49 发布

阅读量619

点赞数

分类专栏：深度学习文章标签：目标检测

本文链接：https://blog.csdn.net/daydayup_668819/article/details/84939603

版权

概述

图像分类，检测及分割是计算机视觉领域的三大任务。图像分类模型（详情见这里）是将图像划分为单个类别，通常对应于图像中最突出的物体。但是现实世界的很多图片通常包含不只一个物体，此时如果使用图像分类模型为图像分配一个单一标签其实是非常粗糙的，并不准确。对于这样的情况，就需要目标检测模型，目标检测模型可以识别一张图片的多个物体，并可以定位出不同物体（给出边界框）。目标检测在很多场景有用，如无人驾驶和安防系统。

这里写图片描述

图像分类，目标检测与实例分割的对比

目前主流的目标检测算法主要是基于深度学习模型，其可以分成两大类：（1）two-stage检测算法，其将检测问题划分为两个阶段，首先产生候选区域（region proposals），然后对候选区域分类（一般还需要对位置精修），这类算法的典型代表是基于region proposal的R-CNN系算法，如R-CNN，Fast R-CNN，Faster R-CNN等；（2）one-stage检测算法，其不需要region proposal阶段，直接产生物体的类别概率和位置坐标值，比较典型的算法如YOLO和SSD。目标检测模型的主要性能指标是检测准确度和速度，对于准确度，目标检测要考虑物体的定位准确性，而不单单是分类准确度。一般情况下，two-stage算法在准确度上有优势，而one-stage算法在速度上有优势。不过，随着研究的发展，两类算法都在两个方面做改进。Google在2017年开源了TensorFlow Object Detection API，并对主流的Faster R-CNN，R-FCN及SSD三个算法在MS COCO数据集上的性能做了细致对比（见Huang et al. 2017），如下图所示。近期，Facebook的FAIR也开源了基于Caffe2的目标检测平台Detectron，其实现了最新的Mask R-CNN，RetinaNet等检测算法，并且给出了这些算法的Baseline Results 。不得不说，准确度（accuracy）和速度（speed）是一对矛盾体，如何更好地平衡它们一直是目标检测算法研究的一个重要方向。

这里写图片描述

Faster R-CNN，R-FCN及SSD算法在MS COCO数据集上的性能对比

在这篇长文中，我们将对最新的目标检测算法做一个综述。在介绍目标检测算法之前，先简单介绍目标检测领域常用的数据集以及性能指标。

数据集和性能指标

目标检测常用的数据集包括PASCAL VOC，ImageNet，MS COCO等数据集，这些数据集用于研究者测试算法性能或者用于竞赛。目标检测的性能指标要考虑检测物体的位置以及预测类别的准确性，下面我们会说到一些常用的性能评估指标。

数据集

PASCAL VOC（The PASCAL Visual Object Classification）是目标检测，分类，分割等领域一个有名的数据集。从2005到2012年，共举办了8个不同的挑战赛。PASCAL VOC包含约10,000张带有边界框的图片用于训练和验证。但是，PASCAL VOC数据集仅包含20个类别，因此其被看成目标检测问题的一个基准数据集。

ImageNet在2013年放出了包含边界框的目标检测数据集。训练数据集包含500,000张图片，属于200类物体。由于数据集太大，训练所需计算量很大，因而很少使用。同时，由于类别数也比较多，目标检测的难度也相当大。2014 ImageNet数据集和2012 PASCAL VOC数据集的对比在这里。

另外一个有名的数据集是Microsoft公司（见T.-Y.Lin and al. 2015)建立的MS COCO（Common Objects in COntext）数据集。这个数据集用于多种竞赛：图像标题生成，目标检测，关键点检测和物体分割。对于目标检测任务，COCO共包含80个类别，每年大赛的训练和验证数据集包含超过120,000个图片，超过40,000个测试图片。测试集最近被划分为两类，一类是test-dev数据集用于研究者，一类是test-challenge数据集用于竞赛者。测试集的标签数据没有公开，以避免在测试集上过拟合。在COCO 2017 Detection Challenge中，旷视科技团队凭借提出的Light-Head R-CNN模型夺得冠军（AP为0.526 ），看来还是two-stage算法准确度更胜一筹。