基于深度学习的小目标检测方法的调查和性能评估

A survey and performance evaluation of deep learning methods for small object detection

此文为翻译论文,原文地址:
https://www.sciencedirect.com/science/article/abs/pii/S0957417421000439
原文
摘要:在计算机视觉领域,随着深度卷积神经网络(CNN)的迅速发展,目标检测技术取得了重大进展。本文综述了近年来发展起来的用于小目标检测的深度学习方法。我们总结了小目标检测的挑战和解决方案,并介绍了主要的深度学习技术,包括融合特征图、添加上下文信息、平衡前景-背景示例以及创建足够的正面示例。我们讨论了四个研究领域的相关技术,包括通用目标检测、人脸检测、航空图像中的目标检测和分割。此外,本文基于三个大型小对象基准数据集,比较了几种主要的小对象检测深度学习方法,包括YOLOv3、快速R-CNN和SSD的性能。我们的实验结果表明,虽然这些深度学习方法对小目标的检测精度较低,小于0.4,但速度较快的R-CNN表现最好,而YOLOv3则紧随其后.
1、引言
目标检测是计算机视觉的基本任务之一。通常,目标检测和识别包括两个步骤:首先,定位每个目标的潜在位置;然后,将目标划分为不同的类别。在深度学习方法兴起之前,目标检测方法依赖于人工设计的特征和基于人类理解目标的方式设计的分类器。近年来,由于深度学习,特别是深度卷积神经网络(CNN)的成功,目标检测领域有了长足的发展。目标检测已广泛应用于许多应用,如自动驾驶、视觉搜索、虚拟现实(VR)和增强现实(AR)等。尽管在许多应用中已经实现了对图像中的中大型目标的精确检测,但对小目标的准确检测,例如航空图像中的20x20像素鸭子,仍然具有挑战性。由于难以区分的特征、低分辨率、复杂的背景、有限的信息背景等原因,小目标很难检测。这是一个活跃的研究领域,近年来发展了许多深度学习技术,并取得了很好的结果。一些工作表明了组合不同特征层的重要性,而另一些工作表明上下文信息非常有用.此外,提高分类准确度的技术,如处理不平衡的分类示例和不足训练的技术,也取得了良好的效果。
1.1本文主要内容
本文主要研究用于检测图像中小目标的深度学习技术。我们对相关的目标检测和实例分割方法进行了全面的回顾。我们确定并分析了主要挑战,总结了提高小物体检测性能的策略。首先,我们讨论了四个方面的挑战:1)基本CNN中各个层生成的特征不包含用于小目标检测的足够信息;
2) 小目标检测缺乏背景信息;
3) 前场和背景训练样本的不平衡使得分类困难;
4)针对小对象的正面训练示例不足。
然后,我们从
1)组合多个特征映射,
2)添加上下文信息,
3)平衡类示例,
4)创建足够数量的正面示例
四个角度总结了现有的小目标技术。我们介绍了四个不同研究领域的相关技术,包括通用目标检测、人脸检测、航空图像中的目标检测和实例分割.最后,报告了我们的实验结果,比较了几种最先进的深度学习方法在以小目标为中心的基准数据集上的性能。本文的主要贡献如下:
1)全面回顾了关于小目标检测的最新深度学习技术
2)从四个具体方面确定小目标检测面临的挑战,总结深度学习方法的主要组成部分,并从四个方面对现有方法进行分类
3)分析并连接四个研究领域的相关技术,包括通用目标检测、人脸检测、航空图像中的目标检测和分割
4)在三个小目标基准数据集上对一些最先进的深度学习方法进行实证性能评估。
1.2 与以往综述论文的比较
(Zou, Shi, Guo, & Ye, 2019)的综述涵盖了过去20年中的目标检测方法,包括传统检测方法和深度学习方法。本文主要研究在过去5年中发展起来的用于小目标检测的深度学习方法.(Zou等人,2019年)综述了通用目标检测的深度学习方法,而本文包括在四个研究领域开发的方法,包括通用目标检测、人脸检测、航空图像中的目标检测和分割.(Leevy、Khoshgoftaar、Bauder和Seliya,2018年;Oksuz、Cam、Kalkan和Akbas,2019)专注于克服类不平衡问题的方法.(Zhao,Zheng,Xu和Wu,2019)回顾了几个目标检测任务中的几种最先进的深度学习框架,并分析了不同的方法和一般目标检测的实验结果.(刘等人,2020年;Jiao等人,2019)回顾了用于目标检测的深度学习方法和技术。然而,他们没有提供这些深度学习方法的实验分析.(Wu,Sahoo和Hoi,2020)回顾了目标检测组件、模型和学习策略。尽管这些作品提供了一个全面的回顾,他们的重点是一般大小的目标,而不是小目标.
最近,关于小目标检测也有一些综述。Nguyen、Do、Ngo和Le(2020年)对小目标的现有目标检测方法进行了回顾,并重点对四种模型进行了性能评估。相比之下,本文提出了一个更为深入和全面的综述和不同的角度的挑战。此外,我们总结了现有深度学习方法的主要组成部分,将现有的检测方法分为四个方面,从目标检测的四个不同应用领域连接和分析了当前的深度学习方法,并评估了三个模型在三个不同数据集上的性能。Tong、Wu和Zhou(2020)主要从五个方面回顾了现有的改进小目标检测的方法,并在两个数据集上分析了实验结果。相比之下,本文不仅总结了不同方面的现有方法,还识别和分析了四个具体方面的关键挑战,连接和分析了几个相关研究领域的解决方案,并给出了不同数据集的实证结果。
综上所述,本文在几个方面与以往的综述文章有所不同。首先,我们的回顾侧重于小目标。其次,我们的综述包括主要检测组件和最先进的目标检测框架的概述。第三,分析了小目标检测面临的挑战,总结了提高小目标检测精度的主要技术。此外,我们还分析和连接了四个小目标检测应用领域的技术,这些领域涵盖了广泛的小目标检测任务。最后,我们在小目标基准数据集上对三种有代表性的深度学习框架进行了实际比较.
论文的其余部分组织如下。第2节概述了图像中目标检测的深度学习方法和主要组件.第3节介绍了主要的深度学习方法以及用于小目标检测的框架。第4节确定了小目标检测的挑战和解决方案,以及在四个相关研究领域开发的主要技术。第5节介绍了几种主要的小目标检测深度学习方法在三个小目标基准数据集上的实验结果。最后,第六部分讨论了未来的研究方向。
2.基于图像的目标检测深度学习方法综述
2.1问题定义
图像目标检测的目标是检测图像中预定义类对象的实例,并在每个对象周围绘制一个紧密的边界框。更具体地说,目标检测包括两个任务:目标定位和分类,即查找目标在图像中的位置并确定每个对象所属的预定义类别。
2.2. 深度学习方法的主要组成部分
在本节中,我们总结了基于图像的目标检测的深度学习方法的主要组成部分,包括主干网络、区域候选、锚框、目标分类、边界盒回归、损失函数和非极大抑制。
2.2.1.主干网络
基于深度神经网络的目标检测器中的主干网络用于从输入图像中提取高级特征。最常用的主干网络源自深度神经网络图像分类器,该分类器在大规模图像分类数据集上表现良好,如ImageNet分类数据集(Huang、Liu、Van Der Maaten和Weinberger,2017;Szegedy等人,2015年;塞格迪、范霍克、伊夫、斯伦斯和沃伊纳,2016年;Newell,Yang和Deng,2016;何,张,任,孙,2016;Howard等人,2017年;Simonyan&Zisserman,2014年)。通常,最后的分类层从这些图像分类器中移除,其余层用作主干网络。在主干网的基础上,增加检测层,形成完整的目标检测器。主干网的主要设计目标是高检测精度和计算效率。下面是一些流行的主干网。
VGGNets(Simonyan&Zisserman,2014)在卷积层中使用大小为3×3像素的小过滤器,然后使用2×2最大池。VGG16有13个卷积层,而VGG19有16个卷积层。VGG在2014年赢得了ImageNet挑战赛,仍然是使用最广泛的网络之一
残余网络,或Resnet(He等人,2016),其中提出了残余块,通过直接从每个模块的输入添加跳过连接,克服反向传播中的梯度消失问题,使训练非常深入的网络成为可能。剩余网络有几种变体。最常用的版本是ResNet50和ResNet101。ResNet比VGGNet深得多。ResNet赢得了ImageNet 2015分类任务.
Inception networks(Szegedy等人,2015年、2016年)在不增加计算复杂性的情况下增加了网络的深度和宽度。初始模块由1x1、3x3和5x5过滤器大小的卷积层和最大池层组成,这些层彼此平行堆叠。在一层中可以同时提取多个尺度的特征。初始网络比VGGNet快得多.
DenseNet(Huang et al.,2017),其中每一层都与前庄园中的所有其他层紧密相连,因此后一层的所有层都使用较低层特征。DenseNet可以缓解消失梯度问题。
已经开发了许多技术来改进主干网。例如,沙漏网络被设计用于捕捉多尺度特征,并被广泛用于姿态估计和目标检测(Newell等人,2016)。一个简单的沙漏模块由卷积层和最大池层组成,用于以低分辨率提取特征。在几个池层之后,网络使用上采样层和来自所有不同大小缩放图像的组合特征。最后,应用两个1x1卷积层生成最终预测。堆叠的多个沙漏模块遵循自下而上和自上而下的方法,跨越不同大小的缩放图像。对于嵌入式设备上的深度学习模型,(Howard等人,2017年)提出了一种可以在移动设备上运行的轻量级网络。它用深度卷积和1x1点卷积代替了标准卷积层,与其他深度神经网络相比,大大减少了计算量。PvaNet(Kim等人,2016年)利用CReLU、初始模块和多尺度输出设计了轻薄的特征提取。
2.2.2区域候选
生成区域候选的主要方法包括约束参数最小割(CPMC)、多尺度组合分组、选择性搜索和区域建议网络(RPN)。CPMC(Carreira和Sminchisescu,2011)将学习一个模型来对细分市场进行排名。具体来说,从片段中提取大量特征,如图特征、区域特征和格式塔特征。这些片段根据它们与地面真相的相似性进行排序。因此,排序问题被建模为一个回归问题,以预测与地面真相的相似性。该模型在具有不同程度背景偏差的图像上进行训练。然后最大化分段之间的重叠分数。多尺度组合分组(Pont Tuset、Arbeĺaez、Barron、Marques和Malik,2016)提出了一种考虑多尺度信息的分层分割方法。基于子采样和超采样构造图像金字塔。单尺度分割应用于每个图像分辨率。在重新缩放和对齐后,将不同的分割贴图组合起来。多尺度区域的组合将进一步一起处理。选择性搜索(Uijlings、Van De Sande、Gevers和Smelders,2013)是一种广泛用于目标检测的基于分割的方法。它按层次对候选区域进行分组,并生成包含类别独立对象的信息位置。然而,它不是基于神经网络的,不能使用数据集进行训练,而且速度很慢。RPN(Ren、He、Girshick和Sun,2015)是第一个基于CNN的网络,可以与其他检测网络一起训练。它同时预测目标区域和目标分类置信度得分。RPN的输入为图像,其输出包含具有对象分数的感兴趣区域(ROI)。具体来说,它使用小型网络作为卷积层上的滑动窗口。每个滑动窗口对应于输入图像中的一个区域,并且可以被视为具有不同比例的区域建议。将特征分为两个预测层:分类层和盒回归层。分类层执行二进制分类以预测区域是否包含任何对象。
2.2.3锚
锚,也称为锚框,(Ren等人,2015)首次提出。锚是一组预定义的边界框,具有各种比例和比率,放置在特征图上。特征图上不同位置的锚点被投影回输入图像,以与真实边界框匹配。每个特征图的步幅由H/H和W/W计算,其中H和W分别是输入图像的高度和宽度,H和W分别是特征图的高度和宽度。锚框的比例和比率通常是预定义的,以最大限度地匹配真实边界框。一些研究人员使用训练数据集无监督聚类方法来计算尺度和比率.在训练期间,锚与地面真相边界框通过IoU(联合交集)分数匹配。通常,对于每个边界框,得分最高的锚或其与地面真相边界框的IoU高于阈值的锚被标记为正面示例。这些主播,其IoU分数与地面真相框低于一个阈值,被标记为负面的例子。利用正反两个例子训练分类器进行目标分类。仅对正例进行进一步回归,以确定对象的位置。(Wang,Chen,Yang,Loy,&Lin,2019)提出了一种新的锚sheme,称为引导锚定,通过使用语义特征动态引导锚定生成。更具体地说,锚在预测概率高于某个阈值的特征地图上生成.
2.2.4目标分类
分类的

  • 2
    点赞
  • 21
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值