目标检测综述-------深度学习用于目标检测的近期进展 introduction(一)

论文题目:Recent Advances in Deep Learning for Object Detection
论文地址:
摘要 目标检测是计算机视觉一个重要的视觉问题并且在最近得到了广泛的研究。视觉目标检测致力于在给定的图像内找到带有精确的定位的特定目标类别的物体,并且给每个物体指定一个相关的类别标签。由于基于深度学习的图像分类的巨大成功,使用深度学习的目标检测技术也最近进行了积极的研究。在这篇论文中,我们给出了基于深度学习的视觉目标检测最近的进展综述。通过回顾大量最近的文献中的相关工作,我们系统地分析了现存的物体检测框架并将概述组织为三个主要的部分。(i)检测成分(ii)学习策略(iii)应用和基准
  在综述中,我们详细介绍了影响检测性能的各种因素,比如检测器的结构,特征学习,提议生成,抽样策略等。最后,我们将讨论未来的几个方向,以促进未来用深度学习进行视觉目标检测的研究。
关键词:目标检测、深度学习、深度卷积神经网络

介绍
  在计算机视觉领域里,有一些基础的计算机视觉问题:图像识别,目标检测、实例分割、语义分割。(见图一)特别地,图像识别,旨在识别给定图像中的对象的语义类别。目标检测不仅识别物体的种类,也要通过一个边界框预测每个物体的位置。语义分割旨在预测像素级的分类器来为每一个像素分配一个特定种类的标签,从而提供对图像的更丰富的理解。然而,对比目标检测,语义分割不区分同一种类的不同物体。在对象检测和语义分割的交叉点上的一个相对较新的设置,叫做实例分割。它能够辨别不同的物体并且给他们中的每一个分配一个识单独的分类像素级掩码。事实上,实例分割可以被视为一种特别的目标检测设定,除了需要用边界框定位物体,同时需要进行像素级的定位。在这份综述中,我们将我们的注意力集中在回顾深度学习在目标价测领域的进展。一个好的检测算法应该对图像的语义信息和空间信息有一个好的理解。事实上,目标检测是许多计算机视觉应用中基本的一步,比如人脸识别,行人检测,视频分析,和标志检测。
  
  在早期,深度学习时代之前,目标检测的主流做法被分为三步:i)候选框生成;(ii)特征向量提取,(iii)区域分类。在候选框生成阶段,目标是在图像中搜寻可能包含物体的位置。这些位置也被称为感兴趣区域(ROI)。一个直观的想法是用滑动窗口扫描整个图像。为了捕获有关对象的多尺度和不同宽高比的信息,图像被调整为不同的尺寸,也使用了多个尺寸的窗口来在这些窗口上滑动。在第二步,在图片的每个位置,从滑动窗口获得一个固定长度的向量,分别捕捉覆盖区域的语义信息。这个特征向量通常是通过底层的视觉描述方法比如(SIFT (尺度不变特征变换),Haar,HOG(梯度直方图)或者SURF(),可以对尺度,亮度和旋转变化表现出一定的鲁棒性。最后,在第三步,区域分类器学习给每个覆盖的区域划分种类步使用标签。通常,在这支持向量机(SVM)因为他在小规模的训练数据上表现出了良好的性能。另外,在区域分类这一步使用一些分类技术例如词袋,级联学习和adaboost,引出了后来的在检测精度上的提升。
 
  大多数的成功的针对目标检测的传统方法集中在仔细地设计特征描述器来获得感兴趣区域的嵌入。借助良好的特征表示以及强大的区域分类器,在Pascal VOC数据集(一个公开的目标检测基准数据集)上获得了优秀的结果。值得注意的是,基于机器的变形部分(DPM),一个突破性的检测算法,在2007,2008,2009年赢得了Voc比赛的冠军。DPM用一个变形的损失学习和融合了多个模型并且并采用隐性的的SVM对硬负样本进行判别训练。 (没有很懂)然而,在2009-2012年,在pascal VOC 上基于三种传统方法取得的进步已经提升,建立复杂的集合系统带来了微小的收益。这表明了这些传统检测器的限制。最显著的是,这些限制包括:(i)在候选框生成阶段,生成了大量的候选框,并且许多是冗余的;这导致了在判断中大量的误判为真(false positive)的结果。同时,窗口的尺寸是手工启发性的设计的,并且不能良好的匹配物体。(ii)特征描述器是基于底层的是视觉线索手动设计的,所以在复杂场景里捕捉有代表性的语义信息是困难的。(iii)检测步骤的每一步都是分别设计和优化的,因此不能获得整个系统的全局最优解。
  
  在应用深度卷积神经网络进行图像分类获得了成功之后,基于深度学习的技术的目标检测也取得了显著的进步。新的基于深度学习的算法以极大的优势超越了传统的检测算法。深度卷积神经网络是一种用于计算分层特征的生物学启发结构。早期尝试建立这种分层和空间不变的图像分类模型是福岛提出的“感知机",然而,这种早期的尝试缺少有效的针对监督学习的优化方法。基于这个模型,Lecun等人利用随机梯度下降(SGD)进行反向传播优化了卷积神经网络,并在手写体数字识别上表现出了有竞争力的性能。然而,在那之后,深度卷积神经网络没有被大量探索,支持向量机变得更加突出。这是因为深度学习有一些限制:(i)缺乏大规模标注的训练数据,这会导致过拟合,(ii)计算资源的限制(iii)和svm相比薄弱的理论支撑。在2009年,Jia等人收集了一个包含1.2M高分辨率图像的大规模注释图像数据集ImageNet,从而可以训练具有大规模训练数据的深度模型。随着并行计算系统(如GPU集群)上计算资源的发展,2012年,Krizhevsky等人使用ImageNet数据集训练了一个大型深度卷积模型,并且与其他所有方法相比,在大规模视觉识别挑战(ILSVRC)方面取得了显着进步。在成功应用DCNN进行分类后,深度学习技术很快适应了其他视觉任务,并且与传统方法相比显示出更好的结果。
  
  对比传统检测方法中使用的手工描述算子,深度卷积神经网络生成从原始像素到高级语义信息的分层特征表示,这是从训练数据中自动学习的,并且在复杂的环境中显示出更具辨别力的表达能力。此外,受益于强大的学习能力,深度卷积神经网络可以利用一个更大的数据集获地更好的特征表示。同时,传统的视觉描述算子的学习能力是固定的,并且即使可以得到更多的数据也无法提升。这些属性基于可以端对端的方式优化深度卷积神经网络,也有更强的特征代表能力。
   最近,基于目标检测框架的深度学习可以基本化为两类:(i)两步的检测器比如 基于区域的CNN(R-CNN)并且 他的变体,以及一步的检测器,比如YOLO和他的变体.两步的检测器首先使用一个候选框生成器生成一组稀疏候选框并从每个提案中提取特征,同时跟着一个可以预测候选区域种类的区域分类器.一步检测器直接对特征图的每个位置上的对象进行分类预测,而无需级联区域的分类步骤。两步的检测器通常完成更好的检测性能并且在公共基准上表现出了最先进的结果,同时,一步地检测器明显在时间上更高效并且在实时的物体检测上有更好的应用.图二也解释了2012年以后的基于深度学习的目标检测技术的主要发展和里程碑.我们将介绍这些关键技术的基本概念,并在调研中系统地分析它们。

图2:自2012年以来基于深度卷积神经网络的物体检测研究的主要里程碑。去年的趋势是设计基于
无锚(红色)和AutoML(绿色)技术
的物体检测器,这可能是两个重要的 未来的研究方向。
  本次调查的目的是全面了解基于深度学习的物体检测算法。图3显示了本文涉及到的重要方法的分类.我们回顾了不同的基于深度学习的目标检测的不同贡献并且把他们划为3个分类:*检测组成,分类策略,应用和基准.对于检测组成,我们首先介绍两个检测设置:**边界框级(bbox-level)和像素掩码级定位.Bbox级的算法需要通过举行的边界框定位物体,而更精确的逐像素掩码需要用掩码级算法分割物体.**接下来,我们总结了两种检测的代表框架:两步和一步检测.然后我们对每一个检测分支进行了细致的调研,包括骨干架构,候选框生成和特征学习.至于学习策略,我们首先强调了由于训练检测器的困难,训练策略对于检测的重要性,并且细致的介绍了训练和测试阶段的优化策略.最后,我们回顾了一些基于现实世界的物体检测应用,包括人脸检测,行人检测,徽标检测和视频分析。 我们还讨论了这些检测任务的公开可用和常用基准和评估指标。 最后,我们展示了近年来公共基准上通用检测的最新结果。
  我们希望我们的调研可以为科研和实践人员提供一个及时的回顾来更好的促进检测系统的研究.论文的其余部分由如下组成:
在第2部分,我们给出了目标检测的标准问题背景.第3部分是检测部分的细节.第4部分展示了学习策略,第5和6部分是检测算法在真实世界的应用基准.最领先的通用检测结果在第7部分列出.最后,我们在第8部分总结和讨论了将来的方向.

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值