Object Detection 20年综述

最新推荐文章于 2024-06-18 02:52:30 发布

john_bh

最新推荐文章于 2024-06-18 02:52:30 发布

阅读量989

点赞数 1

分类专栏： Object Detection 文章标签：目标检测 ObjectDetection YOLO 人脸检测深度学习

本文链接：https://blog.csdn.net/john_bh/article/details/103815375

版权

Object Detection 专栏收录该内容

8 篇文章 0 订阅

订阅专栏

转载请注明作者和出处： http://blog.csdn.net/john_bh/

论文链接:Object Detection in 20 Years: A Survey
作者及团队：Zhengxia Zou & Zhenwei Shi & Yuhong Guo & Jieping Ye
会议及时间： Arxiv 2019
code:

文章目录

Abstract

作为计算机视觉中最基本和最具挑战性的问题之一，对象检测近年来受到了极大的关注。它在过去二十年的发展可以看作是计算机视觉历史的缩影。如果我们将当今的物体检测视为在深度学习的力量下的技术美学，那么将时光倒流了20年，我们将见证冷武器时代的智慧。鉴于对象检测技术的发展，本文跨越了四分之一个世纪的时间（从1990年代到2019年），对400多篇论文进行了广泛的评论。本文涵盖了许多主题，包括历史上的里程碑检测器，检测数据集，度量，检测系统的基本构件，加速技术以及最新的检测方法。本文还回顾了一些重要的检测应用程序，例如行人检测，面部检测，文本检测等，并对它们的挑战以及近年来的技术改进进行了深入分析。

索引词-对象检测，计算机视觉，深度学习，卷积神经网络，技术发展。

1.Introduction

对象检测是一项重要的计算机视觉任务，用于检测数字图像中特定类别的视觉对象（例如人，动物或汽车）的实例。对象检测的目的是开发能够提供计算机视觉应用程序所需的最基本信息之一的计算模型和技术：什么对象在哪里？

作为计算机视觉的基本问题之一，对象检测构成了许多其他计算机视觉任务的基础，例如实例分割[1-4]，图像标题[5-7]，对象跟踪[8]等。从应用的角度来看，物体检测可以分为两个研究主题“通用物体检测”和“检测应用”，前者旨在探索在统一框架下模拟人类视觉和视觉的不同类型物体的检测方法。认知，后一种指的是特定应用场景下的检测，例如行人检测，面部检测，文本检测等。近年来，深度学习技术的快速发展[9]为对象检测带来了新的血液，导致了重大突破，并将其推向了前所未有的研究热点。目标检测现已广泛应用于许多实际应用中，例如自动驾驶，机器人视觉，视频监控等。图1显示了过去二十年来与“物体检测”相关的出版物数量不断增长。
在这里插入图片描述

与其他相关评论的差异
近年来，已发表了许多有关一般物体检测的评论[24-28]。本文与上述评论之间的主要区别总结如下：
1.结合技术发展情况进行全面回顾：本文回顾了对象检测技术发展史中超过400篇论文，涉及时间超过25个世纪（从1990年代到2019年）。以前的大多数评论都只关注较短的历史时期或某些特定的检测任务，而没有考虑整个生命周期内的技术发展。站在历史的高速公路上，不仅有助于读者建立完整的知识体系，而且还有助于找到这个快速发展领域的未来方向。
2.关键技术和最新技术的深入探索：经过多年的发展，最新的物体检测系统已与多种技术集成在一起，例如“多尺度检测”，“硬检测”。负面挖掘”，“边界框回归”等。但是，以前的评论缺乏基本的分析方法来帮助读者理解这些复杂技术的性质，例如，“它们来自何处以及它们如何演变？”每种方法的优缺点？”本文为上述问题的读者进行了深入分析。
3.对检测加速技术的全面分析：物体检测的加速长期以来一直是关键但具有挑战性的任务。本文对20年的对象检测历史在多个层面上的加速技术进行了广泛的回顾，包括“检测管线”（例如，级联检测，特征图共享计算），“检测主干”（例如，网络压缩，轻量级）。网络设计）和“数值计算”（例如积分图像，矢量量化）。以前的评论很少涉及该主题。
目标检测的困难与挑战
尽管人们总是问“物体检测的困难和挑战是什么？”，但实际上，这个问题并不容易回答，甚至可能过于笼统。由于不同的检测任务具有完全不同的目标和约束，因此它们的困难可能因除了其他计算机视觉任务中的一些常见挑战（例如，不同视点，照明和类内差异下的对象）之外，对象检测方面的挑战包括但不限于以下方面：对象旋转和尺度变化（例如，小物体），精确的物体定位，密集和封闭的物体检测，加快检测速度等。在第4和第5节中，我们将对这些主题进行更详细的分析。

本文的其余部分安排如下。在第二部分中，我们回顾了20年来物体检测的发展历史。在第3节中将介绍一些对象检测中的加速技术。在第4节中，总结了最近三年中一些最新的检测方法。一些重要的检测应用将在第5节中进行回顾。在第6节中，我们总结了本文并分析了进一步的研究方向。

2. 20年内的物体检测

在本节中，我们将在多个方面回顾对象检测的历史，包括里程碑检测器，对象检测数据集，指标以及关键技术的发展。

2.1目标检测路线图

在过去的二十年中，物体检测的进展通常经历了两个历史时期：“传统物体检测时期（2014年之前）”和“基于深度学习的检测时期（2014年之后）”，如图2所示。
在这里插入图片描述

2.1.1 里程碑：传统探测器

如果我们将当今的物体检测视为在深度学习的力量下的技术美学，那么将时光倒流20年，我们将见证“冷武器时代的智慧”。大多数早期的物体检测算法都是基于手工特征构建的。由于当时缺乏有效的图像表示，人们别无选择，只能设计复杂的功能表示，以及各种加速技能以耗尽有限的计算资源。

Viola Jones Detectors
18年前，P.Viola和M. Jones首次实现了对人脸的实时检测，没有任何限制（例如，肤色分割）[10，11]。在700MHz Pentium III CPU上运行时，在可比的检测精度下，该检测器的时间比任何其他算法快数十倍甚至数百倍。该检测算法（后来称为“ Viola-Jones（VJ）检测器”）在此由作者的名字给出，以纪念他们的重要贡献。
VJ检测器遵循最直接的检测方式，即滑动窗口：遍历所有可能的位置并缩放图像中的比例，以查看是否有任何窗口包含人脸。尽管这似乎是一个非常简单的过程，但其背后的计算远远超出了计算机所具有的能力。 VJ检测器通过结合三种重要技术大大提高了其检测速度：“整体图像”，“特征选择”和“检测级联”。
1）积分图像：积分图像是一种加快盒滤波或卷积过程的计算方法。与其他物体检测算法[29-31]一样，Haar小波在VJ检测器中用作图像的特征表示。积分图像使VJ检测器中每个窗口的计算复杂度与其窗口大小无关。
2）特征选择：作者使用Adaboost算法[32]而不是使用一组手动选择的Haar基滤波器，而是从大量的随机特征池（约18万个）中选择一小部分对大多数人脸检测最有帮助的特征-维）。
3）检测级联：在VJ检测器中引入了多阶段检测范例（也称为“检测级联”），以通过在背景窗口上花费较少的计算而在面部目标上花费更多的计算来减少其计算开销。
HOG Detector
定向梯度直方图（HOG）特征描述符最初是由N. Dalal和B.Triggs于2005年提出的[12]。 HOG可被认为是其时间尺度不变特征变换[33，34]和形状上下文[35]的重要改进。为了平衡特征不变性（包括平移，缩放，照度等）和非线性（区分不同的对象类别），将HOG描述符设计为在均匀间隔的单元格的密集网格上进行计算，并使用重叠的局部对比度归一化（在“块”）以提高准确性。尽管HOG可用于检测各种对象类别，但它主要是由行人检测问题引起的。为了检测不同尺寸的物体，HOG检测器会在不改变检测窗口大小的情况下多次缩放输入图像。HOG检测器一直是许多物体检测器[13，14，36]和大型物体检测器的重要基础。多年以来在各种计算机视觉应用中的应用。
Deformable Part-based Model (DPM)
作为VOC-07，-08和-09检测挑战的赢家，DPM是传统对象检测方法的顶峰。 DPM最初是由P. Felzenszwalb [13]在2008年提出的，作为HOG检测器的扩展，然后R. Girshick [14、15、37、38]进行了各种改进。
DPM遵循“分而治之”的检测原理，其中训练可以简单地视为对分解对象的正确方法的学习，而推理则可以视为对不同对象部分进行检测的集合。例如，检测“汽车”的问题可以被视为检测其车窗，车身和车轮。 P. Felzenszwalb等人完成了这部分工作，也称为“明星模型”。 [13]。后来，R。Girshick将星型模型进一步扩展到“混合模型” [14、15、37、38]，以处理更大变化下的现实世界中的物体。
典型的DPM检测器由根过滤器和许多部分过滤器组成。代替手动指定零件过滤器的配置（例如尺寸和位置），DPM中开发了一种弱监督学习方法，其中可以自动将零件过滤器的所有配置作为潜在变量进行学习。 R. Girshick将该过程进一步表述为多实例学习的特例[39]，并且还应用了其他一些重要技术，例如“硬否定挖掘”，“边界框回归”和“上下文启动”。检测精度（将在第2.3节中介绍）。为了加快检测速度，吉尔希克（Girshick）开发了一种将检测模型“编译”为速度更快的技术，该技术实现了级联架构，该架构实现了超过10倍的加速而又不牺牲任何精度[14，38]。
尽管当今的物体检测器在检测精度方面已经远远超过了DPM，但其中许多仍然受到其有价值的见识的深刻影响，例如混合模型，硬负挖矿，边界框回归等.2010年，P.Felzenszwalb和R Girshick被PASCAL VOC授予“终身成就”。

2.1.2 里程碑：基于CNN的 two-stage 检测器

随着手工制作功能的性能趋于饱和，目标检测在2010年后达到了平稳状态。R.Girshick说：“ … 2010-2012年间进展缓慢，通过构建集成系统和采用较小的变体获得的收益很小卷积神经网络的重生[40]。[38]。在2012年，世界看到了卷积神经网络的重生。由于深度卷积网络能够学习图像的鲁棒且高级的特征表示，因此自然而然的问题是我们是否可以将其用于对象检测？ R. Girshick等。通过提出具有CNN特征的区域（RCNN）进行对象检测，率先打破了僵局，2014年[16，41]。从那时起，物体检测开始以前所未有的速度发展。

在深度学习时代，物体检测可以分为两类：“两阶段检测”和“一级检测”，其中前者将检测过程称为“粗毛细化”过程，而后者则将检测过程归为“粗糙”过程。一步完成”。

RCNN
RCNN背后的思想很简单：它始于通过选择性搜索提取一组对象建议（对象候选框）[42]。然后将每个建议重新缩放为固定大小的图像，并输入到ImageNet上训练的CNN模型中（例如AlexNet [40]）以提取特征。最后，线性SVM分类器用于预测每个区域内对象的存在并识别对象类别。 RCNN在VOC07上产生了显着的性能提升，平均平均精度（mAP）从33.7％（DPM-v5 [43]）大幅提高到58.5％。
尽管RCNN取得了长足的进步，但它的缺点也很明显：对大量重叠的提案（从一张图像中提取2000多个框）进行冗余特征计算会导致极慢的检测速度（GPU每张图像14s）。同年晚些时候，SPPNet [17]提出并克服了这个问题。
SPPNet
2014年，K.He等人。提出了空间金字塔池网络（SPPNet）[17]。以前的CNN模型需要固定大小的输入，例如AlexNet的224x224图像[40]。SPPNet的主要贡献是引入了空间金字塔池（SPP）层，这使CNN可以生成固定长度的表示形式。不管图像/感兴趣区域的大小而无需重新缩放。当使用SPPNet进行目标检测时，只能从整个图像计算一次特征图，然后可以生成任意区域的固定长度表示形式以训练检测器，从而避免了重复计算卷积特征。 SPPNet的速度是R-CNN的20倍以上，而且丝毫没有牺牲任何检测精度（VOC07 mAP = 59.2％）。
尽管SPPNet有效地提高了检测速度，但仍然存在一些缺点：首先，训练仍然是多阶段的;其次，SPPNet仅微调其完全连接的层，而忽略了之前的所有层。 RCNN [18]被提出并解决了这些问题。
Fast RCNN
在2015年，R。Girshick提出了快速RCNN检测器[18]，这是对R-CNN和SPPNet的进一步改进[16，17]。快速RCNN使我们能够在相同的网络配置下同时训练检测器和包围盒回归器。在VOC07数据集上，快速RCNN将mAP从58.5％（RCNN）提高到70.0％，同时检测速度比R-CNN快200倍。
尽管Fast-RCNN成功地集成了R-CNN和SPPNet的优点，但其检测速度仍然受到提议检测的限制（有关更多详细信息，请参见第2.3.2节）。然后，自然会产生一个问题：“我们可以用CNN模型生成对象建议吗？”后来，Faster R-CNN [19]回答了这个问题。
Faster RCNN
在2015年，S。Ren等人。在快速RCNN之后不久，提出了Faster RCNN检测器[19，44]。更快的RCNN是第一个端到端和第一个近实时深度学习检测器（COCO mAP @ .5 = 42.7％，COCO mAP @ [。5，.95] = 21.9％，VOC07 mAP = 73.2％，使用ZFNet [45]，VOC12 mAP = 70.4％，17fps）。 Faster-RCNN的主要贡献是引入了区域提案网络（RPN），该网络使几乎免费的区域提案成为可能。从R-CNN到Faster RCNN，对象检测系统的大多数独立模块（例如提案检测，特征提取，边界框回归等）已逐渐集成到统一的端到端学习框架中。
尽管Faster RCNN突破了Fast RCNN的速度瓶颈，但在后续检测阶段仍然存在计算冗余。后来，提出了各种改进措施，包括RFCN [46]和Light head RCNN [47]。（请参阅第3节中的更多详细信息。）
Feature Pyramid Networks
2017年Lin等。在Faster RCNN的基础上提出了特征金字塔网络（FPN）[22]。在FPN之前，大多数基于深度学习的检测器仅在网络的顶层运行检测。尽管CNN较深层的功能有利于类别识别，但它不利于对象的定位。为此，在FPN中开发了具有横向连接的自上而下的体系结构，用于构建各种规模的高级语义。由于CNN通过其向前传播自然形成了一个特征金字塔，因此FPN在检测各种尺度的物体方面显示出了巨大的进步。在基本的Faster R-CNN系统中使用FPN，它可以在没有钟声的MSCOCO数据集上获得最新的单模型检测结果（COCO mAP @ .5 = 59.1％，COCO mAP @ [。5 ,. 95] = 36.2％）。 FPN现在已成为许多最新探测器的基本构建块。

john_bh

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
1
评论
Object Detection 20年综述

目标检测在过去二十年的发展可以看作是计算机视觉历史的缩影。鉴于对象检测技术的发展，从1990年代到2019年，对400多篇论文进行了广泛的评论，涵盖了许多主题，包括历史上的里程碑检测器，检测数据集，度量，检测系统的基本构件，加速技术以及最新的检测方法。本文还回顾了一些重要的检测应用程序，例如行人检测，面部检测，文本检测等，并对它们的挑战以及近年来的技术改进进行了深入分析。
复制链接

扫一扫