yolo算法的优缺点分析_【精选推荐】基于深度学习的单阶段目标检测算法研究综述...-CSDN博客

本文链接：https://blog.csdn.net/weixin_29913535/article/details/112413345

本文详细分析了基于深度学习的单阶段目标检测算法，如YOLO和SSD，探讨了它们的优缺点、发展历程、算法框架、特征提取和检测器设计。单阶段算法因结构简洁、计算高效，成为实时目标检测领域的研究焦点。尽管取得显著进展，但仍有提升空间，包括特征利用效率、小目标检测能力和损失函数的改进等。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

DOI:10.12132/ISSN.1673-5048.2019.0100

引用格式

刘俊明,孟卫华. 基于深度学习的单阶段目标检测算法研究综述[J]. 航空兵器, 2020, 27(3): 44-53.

Liu Junming,Meng Weihua. Review on Single-Stage Object Detection Algorithm Based on Deep Learning[J]. Aero Weaponry, 2020, 27(3): 44-53.(in Chinese)

基于深度学习的单阶段目标检测算法研究综述

刘俊明1*, 孟卫华1,2

1.中国空空导弹研究院

2.航空制导武器航空科技重点实验室

摘要

近年来, 深度学习技术推动目标检测算法取得了突破式进展。基于深度学习的目标检测算法可分为两阶段检测算法和单阶段检测算法。相比两阶段检测算法, 单阶段检测算法的结构简单、计算高效, 同时具备不错的检测精度, 在实时目标检测领域中具有较高的研究和应用价值。本文首先回顾了单阶段检测算法的发展历史, 分析总结了相关算法的优缺点, 然后归纳提出了单阶段目标检测算法的通用框架, 接着对框架中的特征提取模块和检测器进行了深入分析, 指出了其对算法性能的影响, 最后对单阶段检测算法的发展趋势进行了展望。

关键词

深度学习; 单阶段目标检测算法; 特征提取; 特征融合; anchor; 损失函数; 人工智能

0 引言

目标检测是计算机视觉领域的重要问题之一, 是完成目标跟踪、场景理解等复杂视觉任务的基础, 在视频监控、智能交通等领域中应用广泛。目标检测的任务是判断图像中是否存在属于指定类别的目标, 如果存在, 则给出目标的类别和位置信息。由于图像中目标的类别、数量、位置、尺度和外观变化较大, 一般而言, 目标检测任务比目标分类任务更具有挑战性。

传统目标检测算法主要致力于解决少数几类目标的检测问题, 如行人检测[1]、红外目标检测[2]。深度学习技术[3], 特别是深度卷积神经网络技术[4]出现以后, 目标检测算法取得了突破式发展, 在Pascal VOC[5,6], MS COCO[7]等大型数据集上已经能够取得不错的检测效果。

深度学习技术带来的进步主要体现在: ①目标检测精度大幅提升; ②单一模型能够检测的目标类别数大幅增长。但深度学习算法运行时需要耗费大量的计算资源, 运行速度一般远低于传统算法。在计算资源受限的条件下, 许多基于深度学习的目标检测算法往往难以达到实时运行的要求。

基于深度学习的目标检测算法分为两阶段检测算法和单阶段检测算法两种, 如图1所示。两阶段检测算法也被称为基于候选区域的目标检测算法, 其将目标检测过程分解为候选区域提取、候选区域分类和候选区域坐标修正三个步骤。单阶段检测算法也被称为基于回归分析的目标检测算法, 其将目标检测问题视为对目标位置和类别信息的回归分析问题, 通过一个神经网络模型可直接输出检测结果。

图1 基于深度学习的目标检测算法

Fig.1 Object detection algorithm based on deep learning

从本质上而言, 两阶段检测算法包含了两次目标检测的过程, 候选区域提取模块是第一个检测器, 用于检测前景和背景区域; 候选区域分类和坐标修正模块构成了第二个检测器, 用于对第一个检测器的结果进行补充和修正。两阶段检测算法中的两次目标检测过程提升了算法的准确性, 但也增加了模型复杂度, 制约了模型计算效率的提高。单阶段检测算法只包含一次目标检测的过程, 其结构简单、计算效率高, 能够方便地进行端到端的训练, 在实时目标检测领域中有很大的应用潜力。

目前, 基于深度学习的单阶段检测算法仍然存在着不足, 其结构形式、检测精度和检测速度仍然需要进一步提升。近年来, 虽然有不少学者对基于深度学习的目标检测算法进行了梳理总结[8,9,10], 但这些总结主要集中于对目标检测算法的整体框架进行介绍, 对单阶段目标检测算法中关键模块的分析却不足。本文首先回顾了单阶段目标检测算法的发展历程, 然后归纳提出了单阶段检测算法的通用框架, 并对算法中特征提取模块和检测器模块进行深入分析, 最后对单阶段检测算法的发展趋势进行了展望。

1 发展历史

单阶段目标检测算法可以看作是一个回归分析模型, 用于分析输入图像的像素值与图像中目标位置和类别等变量之间的关系。由于图像和目标并不是一一对应的关系, 利用回归分析方法直接预测目标的位置和类别具有一定的难度, 因此, 早期基于深度学习的目标检测算法都是目标检测问题分解为候选区域提取、分类和坐标修正等过程, 如图1(a)所示。图像分类算法和两阶段目标检测算法中回归分析方法对于单阶段目标检测算法的发展都有重要的促进作用。图2时间轴上方展示了单阶段目标检测算法的发展历程, 时间轴下方展示了基于深度学习的分类网络的发展历程。不同单阶段目标检测算法在Pascal VOC数据集和COCO数据集上的性能如表1所示。

图2 单阶段目标检测算法发展历史

Fig.2 Development history of single-stage object detection algorithm

2012年, Krizhevsky A利用深度卷积神经网络AlexNet[4]在ILSVRC2012图像分类任务上以明显优于传统算法的成绩获得冠军, 在计算机视觉领域引起了研究深度学习技术的热潮。许多学者开始研究将深度卷积神经网络应用于目标检测任务, 并利用AlexNet构建了DetectorNet[11]、 OverFeat[12]、 R-CNN[13]、 DeepMultiBox[14]、 MultiGrasp[15]等目标检测算法。

DetectorNet和OverFeat是最早提出的基于深度神经网络的目标检测算法, 二者的模型中包含了回归分析的思想。DetectorNet利用神经网络直接预测用于指示目标区域的掩模图像。OverFeat则利用卷积神经网络的特性高效地实现了基于滑动窗方法的图像分类和目标定位。由于算法结构仍然不完善, 这两种算法并未取得突破性进展, 但二者对基于深度学习的目标检测算法研究具有启发性意义。

R-CNN是典型的两阶段目标检测算法, 其使用Selective Search[16]算法生成候选区域, 并利用深度卷积神经网络对候选区域进行分类。在修正候选区域坐标时, R-CNN使用了回归分析方法。具体而言, R-CNN利用全连接网络层实现了从输入特征到候