论文下载:https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=9574645
Abstract
无人机(UAV)被称为"黑飞"的非法飞行对公共安全构成重大威胁,现有低空目标检测算法在平衡检测精度和速度方面存在困难。此外,它们的精度也不够高,尤其是对于复杂环境中的小目标。为了解决这些问题,我们提出了一种轻量级的特征增强卷积神经网络,能够实时对低空飞行目标进行高精度检测,从而提供制导信息以抑制"黑飞"无人机。该网络由三个模块组成。采用轻量、稳定的特征提取模块来减少计算量并且稳定地提取更多的底层特征,增强的特征处理模块显著提高了模型的特征提取能力,精确检测模块集成了低级和高级特征,以提高复杂环境下的多尺度检测精度,尤其是小目标。对于由飞行物体组成的数据集,该方法的检测速度FPS为147,mAP为90.97%,表明该方法具有低空目标检测的潜力。此外,基于MS COCO的评估结果表明,该方法也适用于通用的的目标检测。
key words:无人机、深度学习、轻量级网络、目标检测
1. Introduction
无人机(UAV)由于其在改善国防[1]和方便民用方面的独特能力,已广泛应用于各种工业、消费和军事应用,对整个社会产生了重大影响。然而,现有立法尚未完善无人机相关法律,黑飞现象频繁发生,侵犯了个人隐私和公共安全,甚至国家安全[2]。鉴于无人机(尤其是小型无人机)数量的不断增加,在复杂或弱光环境中对其进行有效监控变得越来越困难。此外,在鸟类和风筝等大量低空干扰物体的情况下,保证无人机的准确检测仍然具有挑战性。因此,为了保护公共财产,提供有效的空中交通管制信息,抑制黑飞现象,有必要开发能够在各种环境条件下对无人机进行高精度实时检测的方法。
近年来,人们开发了多种探测低空飞行物体的方法. 然而,现有的目标检测算法无法保证在黑暗和复杂环境中检测多尺度目标,尤其是小目标。目前,现有的方法在没有足够提取特征的低海拔、弱光照情况下检测体积小的目标时有很大的困难。此外,低空目标检测算法应准确、快速地检测,这对于准确识别未经授权的无人驾驶车辆和允许相关部门快速响应至关重要。因此,低空目标检测算法必须实时准确地检测目标的各种类型和位置。
为了解决这些问题,我们提出了一种基于多尺度特征融合的端到端轻量级检测网络体系结构,用于检测低空飞行的小目标,称为LSL-Net,基Yolov4-tiny。该网络提高了复杂环境下的目标检测性能,尤其是对于小目标;此外,它需要更少的检测时间。
该方法由三个简单但重要的模块组成,包括一个轻量级且稳定的特征提取模块(LSM)、一个增强的特征处理模块(EFM)和一个精确检测模块(ADM)。LSM减少了图像的大小,增强了与底层特征相关的信息,而EFM通过插入一种新的注意力机制和空间金字塔池化网络(SPP-Net)实现了更强大的特征提取。该算法在采用轻量级网络块(LNB)提取特征信息后,特别针对小目标进行了尺度识别,从而更准确地检测小目标。该模型由这些简单而有效的模块组成,很好地平衡了检测速度和精度,我们的实验结果表明,该模型在检测低空目标方面具有良好的性能。
本研究的贡献归纳如下:
<1>、我们提出了一种端到端的多尺度轻量级目标检测网络LSL-Net网络,它在检测精度和速度之间提供了良好的平衡,由三个模块组成,包括LSM、EFM和ADM。LSM提取稳定的低层信息并减少总体计算量,而EFM提取更有效的信息以执行更精确的检测,ADM对不同尺度的低空目标,尤其是小目标,实现了更高的精度。
<2>、采用跨阶段部分网络(CSPNet)和注意力机制等技术来提高检测精度。对于尺寸为416×416像素的输入图像,我们的模型实现了90.97%的mAP和147FPS的检测速度。对比实验表明,与基准方法相比,mAP的提升比单独使用YOLOv4-tiny高6.71%。此外,无人机目标的检测精度与之前的方法相比提高了1.79%。,这表明在低海拔环境下可以更准确地检测到小目标。
<3>、实验结果表明LSL-Net在平衡检测精度和速度方面表现出优异的性能。根据在低空数据集上的实验结果,在输入尺寸为416×416像素的情况下,正向推理速度比SSD快三倍以上。所提出的方法展示了在不同天气条件下执行准确实时检测和抑制无人机黑飞的能力。
本研究的剩余部分如下,第2节总结了相关工作,第3节详细介绍了所提的LSL-Net,第4节介绍比较了所提网络和各种广泛使用的模型的实验结果。最后,第5节给出了一些结论。
2. Related works
2.1 Traditional object-detection algorithms
近年来,人们对目标检测进行了广泛的研究,可分为传统的检测算法和基于深度学习的检测方法,并对其进行了广泛的研究。大多数传统检测算法通过AdaBoost[8]、方向梯度直方图(HOG)[9]算法和支持向量机(SVMs)[10]的组合实现特征提取和目标类别检测。Nagahashi等[11] 提出了参数化AdaBoost,通过修改参数实现了更快的训练收敛。但其检测速度不够快,在复杂场景中的多类目标检测精度无法保证。Wang等人[12]在提取亮度、方向和区域对比度特征后,使用AdaBoost检测无人机。Omid-Zohoor等人[13]利用HOG算法的光照不变性来增强他们提出的方法的检测能力。这两种方法提高了检测精度;然而,由于计算复杂度过高,它们的实时性能较差,并且它们检测小目标的能力尚未得到验证。Liu等人[14]分析了小运动物体的运动特征和局部特征,以基于随机森林方法更好地检测小型无人机。Li等人[15]设计了一种基于SVM的检测器,通过提取三种不同的特征来增强其检测小目标的能力。然而,提取的特征类型绝大多数依赖于设计者的经验,由于数据集的大小限制,模型性能仍有改进的余地。Bazi等人[16]利用最先进的SVM来确保有限数量训练图像的识别精度。然而,该模型在恶劣环境下的识别能力仍有待测试。总的来说,这些传统算法的泛化和鲁棒性在很大程度上不能满足工业要求。这些方法需要大数据集才能实现高精度,因此计算复杂度高导致实时性差。因此,此类方法在低空环境中实现准确实时检测的能力有限。
2.2 基于深度学习的目标检测算法
随着深度学习的发展,克服了过度依赖设计师经验的特征提取限制,基于卷积神经网络(CNNs)的自适应特征提取算法已经获得了预期的成功。在这些算法中,已经开发出了单阶段和两阶段版本。两阶段的方法,比如连续改进R-CNN系列[18–21],首先生成候选区域,然后执行目标检测。尽管其检测精度较高,但成本较高的计算显著降低了其实时性能。SSD[22]和YOLO[23–26]等单阶段算法通过回归直接预测目标位置和类别,因此它们的结构更加简洁,并展示了实时检测能力。然而,与两阶段方法相比,它们的检测准确率仍然较低。例如,CenterNet[27]和全卷积一阶段目标检测器(FCOS)[28]的检测精度高于SSD和YOLO。然而,它们的检测速度仍然不足以满足实时检测的要求。Li等人[29]提出了两种无人机识别算法。他们首先追求高检测精度,并将识别的无人机图像(由SSD检测)发送给AlexNet[30]进行微调。尽管如此,它们的实时性能无法在多变的低空环境中得到保证。另一种方法是在使用SSD获取无人机的位置后,使用k近邻算法进行分类。该方法以低精度为代价确保实时性能,尤其是对于小目标。为了显著提高小目标的检测精度,[31]中的反卷积single shot检测器(DSSD)增加了基于SSD的反卷积和预测模块。[32]中重新定义的特征金字塔网络全卷积one-shot目标检测器通过优化特征金字塔网络(FPN)结构,提取了更丰富的特征。然而,与之前的方法相比,检测速度显著降低。Fan等人[33]将全连接层和反卷积层添加到SSD中,并在低分辨率图像上执行无人机检测。[34]中的FII-CenterNet通过引入有关图像前景的位置和尺寸的信息,提高了检测精度。这些模型旨在保证检测精度和速度,而不考虑在复杂环境中检测小物体的能力。Ma等人[35]通过优化YOLOv3的ResNet块,提高了无人机的检测稳定性。Cui等人[36]采用k-means聚类[37]对YOLOv3的anchors进行细化,以提高无人机检测任务的准确性。虽然与SSDs相比,检测速度有所提高,但实时性不足以有效地检测低空无人机。Wei等人[38]通过缩小尺度和拼接特征,提高了YOLOv3的检测速度。然而,该模型的小目标识别能力仍然不足。
总之,传统的低空目标检测方法无法在复杂环境下自适应提取或保证准确的识别。然而,使用深度学习的目标检测算法可以自适应地提取特征。基于深度学习的方法的检测结果通常优于传统方法;然而,要平衡检测速度和准确性仍然很困难。此外,自动化系统在低海拔地区探测小物体的准确性应该得到提高,以满足不断发展的工业需求。为了解决这些问题,我们提出了一种低空小目标检测模型,该模型使用了轻量特征增强的CNN LSL-Net,实现了检测精度和速度之间的完美折衷,并提高了在恶劣环境下,尤其是对小目标的检测精度。该网络基于由群卷积和CSPNet[39]组成的轻型主干网,以平衡检测精度和计算负载。实验结果表明,该模型能有效地检测出低空下小型飞行物体的运动。因此,该方法可以实现复杂低空环境下无人机的高精度实时检测。
3. Proposed network framework
我们在YOLOv4-tiny的支持下,开发了一种新的端到端自适应特征信息提取和轻量级检测网络,实现了低空飞行目标的高精度实时检测。网络由三个模块组成,包括LSM、EFM和ADM。LSM和EFM构成网络的主干。LSM减少了计算量,提高了检测速度,EFM通过一个注意力模块充分提取特征,提高了检测精度,而ADM允许高精度多尺度检测,增强了系统检测小物体的能力。
3.1 Lightweight and stable featureextraction module
图像的低层特征总是被降级到当特征图显著减少时它们必须被忽略的程度。为了防止图像下采样过程中低层的特征信息丢失,设计了LSM,通过多分支方法进行更好的特征提取,并减小输入图像的大小。其结构如图1所示。
在该模块中,输入图像通过stride为2的3×3的卷积减小,同时提取图像特征。然后利用多分支网络获得不同的感受野。1×1卷积用于减少参数和整合信息。最后,我们将这些信息拼接起来,为后续的特征提取步骤做准备。为了分析LSM和传统方法的计算量,使用每秒浮点运算(FLOPs)来计算计算复杂度,其可以表示为:
其中S表示卷积和,是输出特征的大小,是卷积核大小,和分别表示输入通道和输出通道的数目。因此,YOLOv4-TINY中使用的传统卷积的FLOPs由下式给出:
LSM的FLOPs如下:
与传统的低层特征提取方法相比,LSM的计算复杂度几乎降低了两倍,这表明LSM提高了系统的特征表示能力,在不增加计算量的情况下实现了稳定的下采样。考虑到低空采集的数据集中的小目标,以及检测的精度和速度等多个因素,我们通过数据处理获得了固定大小的图像(如416×416)。通过在EFM之前将输入数据发送到LSM,我们可以在不引入额外计算的情况下增强网络的特征提取能力。
3.2 EFM
特征提取网络模型结构是获得良好检测结果的关键因素。已经提出了许多网络模型,如ResNet[40]和ResNext[41],它们可以在不同的场景中实现高精度或实时检测。
然而,在目前的工作背景下,涉及的物理环境和法律框架是复杂的,对有效检测提出了相当大的挑战。为了实现后续的高精度目标检测,对模型特征提取能力的要求更加严格。根据所考虑场景的特点,提出了一种受CSPNet启发的EFM,如图2所示。EFM主要由三个CSP模块和一个注意力模块组成。每个CSP块都实现了充分的特征提取,并通过最大池化减少了特征图的大小。此外,注意力模块重新调整特征信息,为CSP-SPP的强大特征提取做准备。
CSP-1和CSP-2层的结构如图3所示。经过3 × 3卷积后,输出通道被分成两组。为了在检测精度和速度之间取得良好的折衷,将一组未处理的特征图与另一组通过各种卷积直接处理的特征图拼接起来。
通过引入注意力机制,增加重要信息的权重,减少不重要信息的权重,提高计算机视觉模型的检测能力。由于各个通道对应不同的响应,在最终的CSP-Net前增加如图4所示的通道注意力机制,对通道间的语义信息进行编码,以提高检测精度。
我们首先使用average-和max-pooling生成两个不同的空间上下文描述。然后,我们将这些特征图拼接起来,整合这些池化操作所提取的不同信息。该模块采用残差块增强性能,其中1×1卷积减小输入的特征维度,3×3卷积增强不同通道的特征表达能力。H和W分别代表特征图的高度和宽度,C和r分别代表通道和比例。为了使注意力模块的性能最大化,我们设C=256, r=16。最后,对不同通道的权值进行重新分配,为CSP-SPP算法准备数据。
CSP-SPP的设计旨在大大提高所提模型的特征提取能力。该网络仍被分成两组,如图5所示。Path A不进行任何图像处理,而Path B使用SPP-Net和多样的卷积来进行更全面的特征提取。最终,我们将这两条路径拼接在一起,获得不同信息的融合。
为了减少计算负荷,在数据输入到SPP-Net之前,使用1×1卷积来降低特征维数。如图6所示,SPP-Net对不同的感受野进行特征提取,我们的结果表明,该网络元能够有效地提高检测精度。
3.3 Accurate detection module
目标检测网络通常有两部分结构,包括特征提取和目标检测。LSM和EFM首次被用于实现轻量级和高效的特征提取。ADM是一种多尺度检测模块,旨在提高检测精度。考虑到许多低空目标物体都很小,ADM被添加为检测小型飞行物体的标尺,尤其是与Yolov4 tiny相比。此外,轻量网络块(LNB)在每个尺度的最终检测之前呈现,如图7所示。该块有效地提高了模型的检测性能,所需计算量的增加相对较小。
为了使模型能够进行更准确的检测,我们采用k-means聚类来重新定义anchor的大小,这可以使anchors编码更具代表性的先验信息,并在回归后进行更准确的预测。图8中显示了初始中心和边界框大小的示例。
然后,我们迭代集群中心,如下所示:
在这个公式中,IoU表示真值框和预测框的重叠程度。box和centroid分别表示边界框的大小和每个簇的中心。
如表1所示,使用了三种不同尺寸的特征图,包括13×13、26×26和52×52的图。大的anchor boxes(155×128)、(196×237)和(320×321)用于感受野大小为13×13和64×64的特征图中,用于检测大目标。中等大小的anchor boxes(55×126)、(82×86)和(98×186)应用于具有16×16感受野的26×26特征图,以检测中等体积的目标。在具有8×8感受野的最大52×52特征图中,使用小anchor boxes(13×26)、(33×48)和(56×64)来检测小目标。
LSL-Net使用回归来优化检测问题,损失函数包含三个部分,它们可以表示为:
其中,、和分别是置信度、分类和边界框回归损失函数。置信度损失函数表示如下:
其中是输入图像网格编号的值,B是一个网格中边界框的数量,指示对象是否出现在第i个网格的第h个边界框中。如果网格中有对象,其值为1;否则。和分别是ground truth和预测框的置信度得分,而是一个权重参数。
分类损失函数如下所示:
在这个公式中,和分别是属于第i个网格的第j个边界框的预测概率和真值概率。
其中b和分别表示边界框和ground truth的中心点,是边界框和ground truth的两个中心点之间的欧氏距离,c表示包含它们的最小闭合面积的对角线距离,是一个折衷参数,反映了长宽比的一致性。计算和的公式如下:
其中w和h分别表示边界框的宽度和高度,并且和表示ground truth的宽度和高度。
3.4 LSL-Net overview
我们提出了一种称为LSL-Net的目标检测网络,由LSM、EFM和ADM组成,如图9所示。该模型仅进行一次正向计算,以生成足够的anchor boxes,类似于YOLO算法。在评估每个类别的置信度后,使用非最大值抑制(NMS)确定最终结果。该方法使用了各种有效的图像增强技术,并固定了不同大小图像的分辨率。首先,图像被LSM(图1)稳定地下采样,在不引入额外计算的情况下提高了特征提取性能。然后,EFM(图2)使用组卷积、CSPNet(图3)、注意力机制(图4)和CSP-SPP(图5)构建具有强大特征提取能力的平行堆叠相同拓扑。LSM和EFM实现了高质量图像特征的下采样和提取。在检测模块中,ADM中添加了检测尺度,尤其是小目标的检测尺度。此外,采用了LNB(图7)和k-means聚类(图8)来实现高精度的实时检测。
5. Conclusions
我们提出用LSL-Net实时对低空飞行目标进行高精度探测,为抑制无人机的黑飞提供信息引导。该模型包括三个简单有效的模块,包括LSM、EFM和ADM。LSM减少了图像输入大小和低层特征信息的损失。EFM通过使用注意力机制和CSPNet提高了模型的特征提取能力,ADM提高了检测精度,尤其是对于小目标。我们还构建了一个包含多类多尺度目标的低空飞行目标数据集,以评估该网络的性能。在一项实验中,LSL-Net在NVIDIA GTX1080Ti上实现了90.97%的mAP和147FPS的检测速度(比YOLOv4-tiny高6.71%,比YOLOv4快98 FPS)。大量实验结果表明,LSL-Net具有良好的鲁棒性和良好的泛化能力,能够有效地进行不同天气条件下的检测,满足反无人机任务对低空飞行目标检测的要求。此外,在MS COCO上的实验表明,LSL-Net也适用于其他复杂场景中的目标检测。在未来,我们将设计一个可适用于嵌入式移动终端等设备的提升模型,并进一步丰富数据集,在更复杂的背景中添加对象类别,使其更具代表性。