【无标题】

基于深度学习的目标检测研究综述

人工智能技术与咨询 2022-01-05 20:28

图片

基于深度学习的目标检测研究综述

来源:《电子学报》 ,作者罗会兰等

摘 要: 目标检测是计算机视觉领域内的热点课题,在机器人导航、智能视频监控及航天航空等领域都有广泛的应用.本文首先综述了目标检测的研究背景、意义及难点,接着对基于深度学习目标检测算法的两大类进行综述,即基于候选区域和基于回归算法.对于第一类算法,先介绍了基于区域的卷积神经网络(Region with Convolutional Neural Network,R-CNN)系列算法,然后从四个维度综述了研究者在R-CNN系列算法基础上所做的研究:对特征提取网络的改进研究、对感兴趣区域池化层的改进研究、对区域提取网络的改进研究、对非极大值抑制算法的改进研究.对第二类算法分为YOLO(You Only Look Once)系列、SSD(Single Shot multibox Detector)算法及其改进研究进行综述.最后根据当前目标检测算法在发展更高效合理的检测框架的趋势下,展望了目标检测算法未来在无监督和未知类别物体检测方向的研究热点.

关键词: 目标检测;深度学习;特征提取;计算机视觉;视频监控;图像处理;卷积神经网络

1 引言

目标检测的主要任务是从输入图像中定位感兴趣的目标,然后准确地判断每个感兴趣目标的类别.当前目标检测技术已经广泛应用于日常生活安全、机器人导航、智能视频监控、交通场景检测及航天航空等领域.同时目标检测是行为理解、场景分类和视频内容检索等其他高级视觉问题的基础.但是,由于同一类物体的不同实例间可能存在很大的差异性,而不同类物体间可能非常相似,以及不同的成像条件和环境因素会对物体的外观产生巨大的影响[1],使得目标检测具有很大的挑战性.

传统的目标检测算法采用类似穷举的滑动窗口方式或图像分割技术来生成大量的候选区域,然后对每一个候选区域提取图像特征(包括HOG[2]、SIFT[3]、Haar[4]等),并将这些特征传递给一个分类器(如SVM[5]、Adaboost[6]和Random Forest[7]等)用来判断该候选区域的类别.由于传统方法提取的特征存在局限性,产生候选区域的方法需要大量的计算开销,检测的精度和速度远远达不到实际应用的要求,这使得传统目标检测技术研究陷入了瓶颈[8].

近些年基于深度学习的目标检测算法形成两大类别:基于候选区域和基于回归.基于候选区域的目标检测算法也称为二阶段方法,将目标检测问题分成两个阶段:一是生成候选区域(region proposal),二是把候选区域放入分类器中进行分类并修正位置.基于回归的目标检测算法只有一个阶段,直接对预测的目标物体进行回归.

Sharma等人[9,10]仅仅综述了传统的目标检测算法,Chahal等人[11]对基于深度学习的目标检测算法从算法实现的角度进行了综述,Kemal等人[12]从目标检测算法中不平衡问题的角度进行了综述,Zhao等人[13]从检测框架和检测子任务两个角度进行了综述.与以上研究综述不同的是,本文从一个新颖的角度归类综述了近些年目标检测领域的经典算法.在将其分为基于候选区域和基于回归两大类的前提下,对基于候选区域的目标检测算法,介绍基于区域的卷积神经网络(Region with Convolutional Neural Network,R-CNN)系列算法的发展史后,根据对不同模块的改进研究进行归类综述:特征提取网络、感兴趣区域池化(Region of Interesting Pooling,ROI Pooling)层、区域提取网络(Region Proposal Networks,RPN)、非极大值抑制(Non Maximum Suppression,NMS).对基于回归的目标检测算法,介绍YOLO(You Only Look Once)系列和SSD(Single Shot Multibox Detector)算法后,对基于SSD算法的改进研究进行细分论述:基于Anchor-based的改进研究和基于Anchor-free的改进研究.随后介绍目标检测领域流行的数据集.最后展望未来目标检测研究的发展方向.

2 基于候选区域的目标检测算法综述

本节主要将近年来基于候选区域的目标检测算法分为五个部分进行综述,首先介绍了Faster R-CNN[14]框架的发展历程,然后综述了对Faster R-CNN算法的四个重要组成部分(特征提取网络、ROI Pooling层、RPN、NMS算法)的改进研究.

2.1 R-CNN系列基础框架的发展史

2014年,Girshick等人[15]成功将卷积神经网络(Convolutional Neural Networks,CNN[16])运用在目标检测领域中,提出了R-CNN算法,它将AlexNet[17]与选择性搜索[18](selective search)算法相结合,把目标检测任务分解为若干个独立的步骤(如图1所示),首先采用选择性搜索算法提取2000个候选区域,然后对每个候选区域进行归一化,并逐个输入CNN中提取特征,最后对特征进行SVM分类和区域回归.

图片

R-CNN[15]算法在PASCAL VOC2007[19]数据集上的检测精度达到了58.5%,相较于传统的目标检测算法取得了跨越性的进展.但还存在非常多的改进空间,如:对于单张图像提取的2000个候选区域需要逐个输入CNN中,导致计算开销十分巨大,严重影响了检测速度;而且候选区域输入CNN前,必须剪裁或缩放至固定大小,这会使候选区域发生形变且丢失较多的信息,导致网

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值