目标检测综述 Object Detection in 20 Years: A Survey翻译

摘要

  目标检测作为计算机视觉中最基础、最有挑战的问题之一,近年来受到了广泛的关注。它在过去二十年的发展可以看作是计算机视觉历史的缩影。如果我们把今天的目标检测看作是在深度学习力量下的技术美学,那么回到二十年前,我们将见证冷兵器时代的智慧。本文根据目标检测的发展,对400多篇相关的文章进行综述,时间跨度超过四分之一个世纪(从20世纪90年代到2019年)。本文涵盖了很多主题,包括历史上里程碑检测器、检测数据集、度量标准、检测系统的基本构件、加速技术以及最新的检测方法。本文也综述了行人检测、面部检测、文本检测等一些重要的检测应用,并对面临的挑战和近几年来的技术发展做了深度的分析。
关键词: 目标检测;机器视觉;深度学习;卷积神经网络;技术发展

1. Introduction

  目标检测是一项重要的计算机视觉任务,它处理在数字图像中检测特定类的可视对象(如人类、动物或汽车)的实例。目标检测的任务是开发计算模型和技术用来解决机器视觉应用中所需的最基本消息之一:物体在哪里?
  对象检测是计算机视觉的基本问题之一,是许多其他计算机视觉任务的基础,如实例分割、图像字幕、对象跟踪等。从一个应用的角度来看,目标检测可以分为两个研究主题“一般目标检测”和“检测应用”,前一个旨在探索的方法,在一个统一的框架来模拟人类的视觉和认知,检测不同类型的对象,后者一个指的是特定应用场景下的检测,如行人检测、人脸检测、文本检测等等。近年来,随着深度学习技术的快速发展,为目标检测注入了新的血液,并取得了显著的突破,将其推向了一个前所未有的研究热点。目标检测目前已广泛应用于许多实际应用中,如自主驾驶、机器人视觉、视频监控等。图1显示了在过去两年中与目标检测相关的出版物数量的增长。
在这里插入图片描述

与其它综述的区别

  近年来发表了许多关于一般对象检测的综述。本文与上述综述的主要区别如下:
1.基于技术演进的全面回顾: 本文综述了超过四分之一个世纪(从20世纪90年代到2019年)的对象检测发展历史中的400多篇论文。以前的大多数综述仅仅关注一个短的历史时期或者一些特定的检测任务,而没有考虑它们整个生命周期内的技术演进。
2.深入探索的关键技术和最新的技术: 经过多年的发展,最先进的对象检测系统已与大量技术集成在一起,例如“多尺度检测”,“硬负挖掘”,“边界框回归”等。然而,以前的综述缺乏基本的分析来帮助读者理解这些复杂技术的本质。例如,“它们来自哪里?它们是如何发展的?”“每一组方法的优缺点是什么?”本文针对上述问题对读者进行了深入的分析。
3.全面分析检测提速技术: 加速目标检测一直是一项关键而又具有挑战性的任务。摘要综述了20多年来,在多个层次上,包括“检测管道”(如级联检测、特征图共享计算)、“检测主干”(如网络压缩、轻量化网络设计)、“数值计算”(如积分图像、矢量量化)等对象检测技术的快速发展。以前的综述很少涉及这个主题。

目标检测中的困难和挑战

  尽管人们总是问“什么是目标检测的困难和挑战?”,事实上,这个问题不容易回答,甚至可能被过度概括。由于不同的探测任务具有完全不同的目标和约束,因此它们的困难程度可能会有所不同。除了其他计算机视觉任务中的一些常见挑战,如不同视角下的物体、照度、类内变化等,物体检测中的挑战还包括但不限于以下几个方面:物体的旋转和尺度变化(如小的物体)、准确的物体定位、密集和隐蔽的物体检测、检测速度的加快等。在第4节和第5节中,我们将对这些主题进行更详细的分析。
  本文的其余部分组织如下。节2回顾了近20年来物体检测的发展历史。第3节将介绍一些加速目标检测的技术。第4节总结了近三年来的一些先进检测方法。第5节将对一些重要的检测应用进行回顾。在第6节中,我们将对本文进行总结,并对进一步的研究方向进行分析。

20年的目标检测

在本节中,我们将从多个方面回顾对象检测的历史,包括里程碑检测器、对象检测数据集、度量标准和关键技术的发展

2.1 目标检测的路线图

在过去的二十年中,人们普遍认为,对象检测的发展大致经历了两个历史时期:“传统对象检测时期(2014年以前)”和“基于深度学习的检测时期(2014年以后)”,如图2所示。
在这里插入图片描述

2.1.1里程碑:传统的检测器

如果我们把今天的物体检测看成是深度学习能力下的一种技术上的人工智能,那么时光倒流20年,我们将见证 "冷兵器时代"的智慧。早期的物体检测算法大多是基于手工制作的特征表示来构建的。由于当时缺乏有效的图像表示方式,人们只好设计出复杂的特征表示方式,并且各种加速技能耗尽有限的计算资源的使用量。

Viola Jones检测器

18年前,P. Viola和M. Jones首次实现了不受任何约束的人脸实时检测(如肤色分割)。在700MHz的奔腾III处理器上运行,在检测精度相当的情况下,检测器的速度比其他任何算法都要快几十倍甚至几百倍。该检测算法后来被称为 “Viola-Jones(VJ)探测器”,在此以作者的名字命名,以纪念他们的重大贡献。
VJ检测器遵循最直接的检测方式,即滑动窗口:遍历所有可能的位置并缩放图像中的比例,以查看是否有任何窗口包含人脸。尽管这似乎是一个非常简单的过程,但其背后的计算远远超出了计算机当时的能力。 VJ检测器通过结合“积分图像”,“特征选择”和“检测级联”三项重要技术,大大提高了检测速度。
1)积分图象 积分图像是一种计算方法,用于加速箱滤波或卷积过程。与当时的其他对象检测算法一样,在VJ检测器中使用Haar小波作为图像的特征表示。积分图像使得VJ检测器中每个窗口的计算复杂度与其窗口大小无关。
2)特征选择 作者没有使用一组手动选择的Haar基础滤波器,而是使用Adaboost 算法从大量的随机特征池(约18万维)中选择了一小部分对人脸检测有帮助的特征集。
3)检测级联 在VJ探测器中引入了一种多级检测范式(又名 “检测级联”),通过减少背景窗口的计算量而将更多的计算量花在人脸目标上,从而减少了计算开销。

HOG检测器

定向梯度直方图(HOG)特征描述器最初由N.Dalalal和B.Triggs于2005年提出。HOG可以被认为是对尺度不变量特征变换和形状上下文的重要改进。

未完,持续更新中

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值