基于深度学习的小目标检测方法综述

最新推荐文章于 2024-07-24 16:33:34 发布

LTzhiyuan

最新推荐文章于 2024-07-24 16:33:34 发布

阅读量5.1k

点赞数 7

文章标签：目标检测深度学习计算机视觉

本文链接：https://blog.csdn.net/LTzhiyuan/article/details/121504013

版权

本文综述了基于深度学习的小目标检测方法，分析了小目标检测面临的挑战，如底层特征语义信息不足、训练样本少、主干网络与检测任务差异等。研究集中在多尺度预测、特征分辨率提升、上下文信息利用、数据增强和新网络结构等方面，以提高小目标检测性能。尽管取得进步，与大目标检测相比仍有差距，未来研究可聚焦于FPN优化、从头训练网络及感受野对小目标检测的影响。

摘要由CSDN通过智能技术生成

随着深度学习的发展，基于深度学习的目标检测技术取得了巨大的进展，但小目标由于像素少，难以提取有效信息，造成小目标的检测面临着巨大的困难和挑战. 为了提高小目标的检测性能，研究人员从网络结构、训练策略、数据处理等方面展开了大量的研究，并取得了一定的进展. 然而，与大、中目标检测相比，目前小目标的检测性能依然存在着较大的差距.

目标尺度是影响目标检测性能的重要因素之一. 目前，无论在公开数据集还是现实世界采集的图像中，小目标的检测精度远远低于大目标和中等尺度目标，并经常出现漏检和误检. 但小目标检测在许多实际场景中具有重要的应用，甚至是很多智能设备能否有效安全运行的关键所在. 例如，在无人驾驶系统中，当交通信号灯或行人等目标比较小时，仍然要求无人车能准确识别这些目标并做出相应的动作；在卫星图像的分析中，需要检测汽车、船舶等之类的目标，但这些目标往往由于尺度过小造成检测困难. 因此，研究小目标检测的有效方法、提高小目标的检测性能，是当前目标检测领域非常重要和迫切的研究课题.

小目标的定义主要有2种：第1种是绝对小物体，COCO数据集中指明，当物体的像素点数小于32×32时，此物体即可被看作是小物体；第2种是相对小物体，当目标尺寸小于原图尺寸的0.1时可认为是相对小物体[1]. 在传统的基于机器学习的目标检测中，主要通过构建图像金字塔以求在金字塔的底部检测出小目标. 这种方式需要在不同分辨率的图像上分别提取特征，对于人工设计的特征，计算量尚在可接受范围内；但是对于深度学习提取的特征，这种方式会由于计算量大而无法满足实时性的要求.

随着深度学习的出现和发展，利用图像金字塔来检测不同尺度物体的方法逐渐被深度卷积神经网络(convolutional neural network, CNN)替代. 深度卷积神经网络通过对物体形成多层次的、丰富的特征表达，有效提高了不同尺度物体的检测性能. 在深度卷积网络中，底层特征含有丰富的细节信息，有利于小目标的检测；高层特征含有丰富的语义信息，有利于大目标的检测. 随着研究的不断深入，小目标的检测性能得到了较大的提升，但和大、中目标的检测性能相比仍然存在着一定差距.

关于小目标检测研究的进展，文献[2]较早进行了综述，对主流的方法和网络模型进行了分析对比. 文献[3]也从应用的角度对小目标检测的方法进行了讨论. 除此之外，国内相关学者也对小目标检测的研究现状进行了综述. 文献[1]按照网络结构将小目标检测技术分为一阶段、两阶段、多阶段共3种方法，并介绍了相关的小目标检测数据集；文献[4]介绍了使用多尺度预测和增强特征图的分辨率来提升小目标检测性能的方法；文献[5]介绍了一些基于深度学习的小目标检测模型和常用的小目标检测数据集. 然而，由于小目标检测研究进展很快，尤其基于深度学习的小目标检测新方法不断出现，现有的综述对一些新方法介绍不多，特别是对数据增强的小目标检测方法、利用上下文信息的小目标检测方法以及使用新主干网络和训练策略的小目标检测方法的讨论不够充分，例如文献[4]缺少对基于数据增强的小目标检测方法的介绍.

针对上述情况，为了更加清晰地阐述基于深度学习的小目标检测方法的研究思路，本文首先按照原理的不同将这些方法分成5类，介绍了每一类的典型模型，并对现有的方法进行了比较，然后介绍了小目标检测常用的数据集，最后结合当前小目标检测的研究现状给出了相应的结论和思考.

1 小目标检测方法

目前，基于深度学习的目标检测方法可分为2类，一类是两阶段的目标检测方法，即先生成候选区域，然后再对候选区域进行分类和回归，例如Faster R-CNN[6]；另一类是一阶段的目标检测方法，这类方法直接从图像中回归出物体的类别和坐标，无须生成候选框，代表性的方法有YOLO[7]、SSD[8]等. 无论是一阶段的目标检测方法，还是两阶段的目标检测方法，都面临着小目标检测困难的情况. 具体地，小目标检测主要面临以下几个方面的挑战：

1) 底层特征缺乏语义信息. 在现有的目标检测模型中，一般使用主干网络的底层特征检测小目标，但底层特征缺乏语义信息，给小目标的检测带来了一定的困难.

2) 小目标的训练样本数据量较少. 目前，主流的目标检测算法广泛使用的数据集(PASCAL VOC、COCO)中小目标的训练样本较少，这种情况使得在模型训练的过程中小目标得不到充分的学习.

3) 检测模型使用的主干网络与检测任务的差异. 现有的目标检测模型的主干网络都是在分类数据集上进行训练的，但是分类数据集中目标的尺度分布与检测数据集中目标的尺度分布存在一定的差异.

现有的基于深度学习的小目标检测方法都是在主流的目标检测模型上做改进来提高小目标的检测性能. 按照改进思路的不同，小目标检测方法可分为基于多尺度预测、基于提高特征分辨率、基于上下文信息、基于数据增强技术、基于新的主干网络和训练策略共5种方法.

1.1 基于多尺度预测的小目标检测方法

多尺度预测指的是在多个不同尺度的特征图上分别对物体的类别和坐标进行预测. 在目标检测模型发展的早期，代表性的算法如YOLO、Faster R-CNN等，只使用主干网络的最后一层特征进行目标检测，造成对小目标的检测性能不够好；SSD中首次采用了多尺度预测的方式，改善了小目标的检测性能. 目前，采用多尺度预测的方式已经成为提升小目标检测性能的基本操作.

1.1.1 基于图像金字塔的多尺度目标检测

在基于机器学习的目标检测阶段，图像金字塔是构建多尺度特征的主流方法，在CNN发展的早期，这种方法也得到了一定的应用. 该方法首先将图像缩放到不同分辨率，通过在不同分辨率的图像上分别提取特征来形成多尺度的表达，然后在每个分辨率图像上分别利用基于滑动窗口的方法进行目标检测，以求在金字塔底部检测出小目标. MTCNN[9]就利用了这种思想，首先构建图像金字塔，然后在每层图像上利用CNN提取人脸特征，从而检测出不同分辨率的人