点击蓝字
关注我们
关注并星标
从此不迷路
计算机视觉研究院
公众号ID|计算机视觉研究院
学习群|扫码在主页获取加入方式
代码:https://github.com/zhanderen/MPE-YOLO
计算机视觉研究院专栏
Column of Computer Vision Institute
航空影像目标检测对于城市规划、交通监测以及灾害评估而言至关重要。然而,现有的检测算法在复杂环境下的小目标识别和检测精度方面面临着诸多困难。
PART/1
概述
为了解决这一问题,本文提出了一种基于YOLOv8的改进模型,名为MPE-YOLO。首先,采用了一个多级特征集成器(MFI)模块来增强小目标特征的表征能力,该模块能够细致地调节特征融合过程中的信息损失。对于模型的主干网络,引入了感知增强卷积(PEC)模块来取代传统的卷积层,从而拓展了网络对细粒度特征的处理能力。此外,还设计了一个增强范围C2f(ES-C2f)模块,利用通道扩展以及多尺度卷积核的堆叠来提升网络捕捉小目标细节的能力。在VisDrone、RSOD和AI-TOD数据集上进行了一系列实验后,该模型不仅在航空影像检测任务中展现出相较于现有先进算法更优越的性能,还实现了轻量化的模型结构。实验结果证明了MPE-YOLO在提高航空目标检测的准确性和运行效率方面的潜力。
PART/2
背景
YOLOv8通过航空摄影技术获取的航空影像具有高分辨率和大面积覆盖的特点,通过对地理信息的自动提取和分析,为交通监测、救灾等领域提供了关键支持。随着遥感技术的不断进步,航空影像检测为地理信息系统及相关应用提供了有价值的数据支持,在加强地表物体的识别与监测以及地理信息技术的发展方面发挥着重要作用。航空影像的特点是地形复杂、光照条件多变,且在数据采集和存储方面存在困难。然而,航空影像数据的高维度和大容量给影像检测带来了诸多挑战,尤其是因为航空影像中常常包含小目标,这使得检测工作更具挑战性。
鉴于这些问题,目标检测算法作为航空影像分析的核心技术变得愈发重要。传统的目标检测算法通常依赖于手动设计的特征提取方法,如尺度不变特征变换(SIFT)和加速稳健特征(SURF)。这些方法通过从图像中提取局部特征来表示目标,但可能无法捕捉到更高级别的语义信息。支持向量机(SVM)、随机森林等机器学习方法有效地提高了航空检测的准确性和效率,但在检测复杂背景时仍存在困难。随着深度学习技术的迅速发展,基于神经网络的图像目标检测方法已成为主流。深度学习的端到端学习能力使算法能够自动学习和提取更抽象、更高级别的语义特征,取代了传统的手动设计特征。基于深度学习的目标检测算法可分为单阶段和两阶段算法。
两阶段算法以R-CNN系列为代表,采用两阶段检测过程:首先通过区域建议网络(RPN)生成候选区域,然后通过分类器和回归器对位置和分类进行微调。这类算法能够精确地定位和识别各种复杂的地面物体,尤其是在处理小目标或密集排列的目标时,受到了广泛的关注和应用。然而,两阶段检测算法在速度和效率方面仍有提升空间。以SSD和YOLO系列为代表的单阶段检测算法将目标检测视为回归问题,直接从全局图像中预测目标的类别和位置,实现了实时检测。这些算法具有良好的实时性能和准确性,特别适合处理大规模的航空影像数据。它们在快速获取地理信息、监测城市变化和自然灾害方面具有重要的应用前景。然而,单阶段目标检测算法在小目标的精确检测和定位方面仍然面临挑战。
在无人机航空影像的背景下,目标检测面临着一些特定的挑战:
1.**密集小物体与遮挡**:从低空拍摄的图像通常包含大量密集的小物体,尤其是在城市或复杂地形区域。由于距离较远,这些物体在图像中显得较小,并且容易出现遮挡情况。例如,建筑物可能会相互遮挡,或者树木可能会覆盖停放的车辆。这种遮挡会导致目标物体的特征部分隐藏,从而影响检测算法的性能。即使是先进的检测算法,在高度密集和严重遮挡的环境中也难以准确识别和定位所有物体。
2.**实时性要求与准确性的权衡**:无人机航空影像目标检测必须满足实时性要求,特别是在监测和应急响应场景中。实现实时检测需要降低算法的计算复杂度,而这往往与检测准确性相冲突。高精度的检测算法通常需要大量的计算资源和时间,而实时性要求则需要算法能够快速处理大量数据。挑战在于在确保实时性能的同时保持较高的检测准确性。这需要对网络架构进行优化,以有效地平衡参数数量和准确性。
3.**复杂背景**:航空影像通常包含大量无关的背景信息,如建筑物、树木和道路。背景信息的复杂性和多样性会干扰小物体的正确检测。此外,小物体的特征本身就不太明显。传统的单阶段和两阶段算法主要关注全局特征,可能会忽略对检测小物体至关重要的细粒度特征。这些算法往往无法捕捉到小物体的细节,导致检测准确性较低。因此,迫切需要更先进的深度学习模型和算法来处理这些细微特征,从而提高小物体检测的准确性。
为了解决上述问题,本研究提出了一种名为MPE-YOLO的算法,该算法基于YOLOv8模型,在保持模型轻量化的同时提高了小物体的检测准确性。
PART/3
新框架解析
YOLOv8是由Ultralytics公司开发的最新一代目标检测算法,并于2023年1月10日正式发布。YOLOv8在YOLOv5的基础上进行了改进,将C3模块替换为C2f模块。其检测头采用了现代的解耦头结构,将分类头和检测头分离开来,并且从基于锚框的方法转变为无锚框的方法,从而实现了更高的检测精度和速度。
YOLOv8模型由输入层、主干网络、颈部网络和头部网络组成,如图1所示。输入图像首先被调整大小为640×640,以满足输入层的尺寸要求。主干网络通过多次卷积操作实现下采样和特征提取,每个卷积层都配备了批量归一化(BatchNormalization)和SiLU激活函数。为了改善网络的梯度流动和特征提取能力,引入了C2f模块,该模块借鉴了YOLOv7中的E-ELAN结构,并采用了多层分支连接。此外,SPPF模块位于主干网络的末端,它结合了多尺度特征处理,以增强特征抽象能力。颈部网络采用了FPN和PAN结构,用于有效地融合不同尺度的特征图,然后将其传递给头部网络。头部网络采用解耦的设计方式,包含两个并行的卷积分支,分别处理回归和分类任务,以提高对每个任务的专注度和性能。YOLOv8系列提供了五种不同规模的模型供用户选择,包括YOLOv8n、YOLOv8s、YOLOv8m、YOLOv8l和YOLOv8x。与其他模型相比,YOLOv8s在精度和模型复杂度之间取得了平衡。因此,本研究选择YOLOv8s作为基线网络。
针对航空和无人机影像中小目标检测的需求,我们提出了MPE-YOLO算法,对原始YOLOv8的组件结构进行调整。
如上图所示,通过设计多级特征集成器(MFI)模块,优化了小目标特征的表征和信息融合,从而减少特征融合过程中的信息损失。感知增强卷积(PEC)模块的引入取代了传统的卷积层,拓展了网络对细粒度特征的处理能力,显著提高了复杂背景下小目标的识别精度。我们将主干网络中最后两个下采样层以及针对20×20尺寸目标的检测层,替换为针对160×160尺寸小目标的检测层。这使得模型能够更加关注小目标的细节。最后,通过增强范围C2f(ES-C2f)模块,利用通道扩展和多尺度卷积核的堆叠,进一步提高了模型的特征提取效率和运算效率。综合这些改进,MPE-YOLO在复杂环境下的小目标检测任务中表现出色,显著提高了模型的准确性和性能。为了与基线模型区分开来,MPE-YOLO用较深的颜色标记了改进后的模块。底部的灰色区域表示移除了20×20的检测头,而顶部的黄色区域表示添加了160×160的检测头。
多级特征集成器在目标检测任务中,由于尺寸限制,小目标的特征表征往往不清晰,这可能导致它们在特征融合过程中被忽略或丢失,从而降低检测性能。为了有效解决这一问题,我们采用了Res2Net的结构,并设计了一种创新的多级特征集成器(MFI)。
MFI模块的结构如上图所示,其旨在通过一系列详细的策略来优化小目标的特征表征和信息融合,减少特征信息的损失,并抑制冗余和噪声。
首先,MFI模块使用卷积操作来减少输入特征图的通道维度,从而简化后续的计算过程。紧接着,将降维后的特征图均匀地划分为四组(第1组到第4组),每组包含原始特征图总数的25%。这种划分并非随机进行,而是基于特征图的通道数量进行均匀分割,目的是优化计算效率以及后续的特征融合效果。我们使用一个压缩卷积层对所有组的特征图进行塑形和压缩,得到输出Out1,其目的是聚焦于关键的目标特征,减少特征冗余,并保留对小目标检测有帮助的细节信息。其次,通过对第1组和第2组的特征进行按比例融合,我们构建出复杂的低层次特征表征,形成输出部分Out2,进而增强小目标的特征细节。此外,将瓶颈模块应用于第3组,以提炼高层次语义信息,并生成Out3。这一高级特征输出有助于捕捉更丰富的上下文信息,提高小目标的检测效率。Out4是通过将Out3中的高层次特征与第4组的特征进行融合,然后再通过瓶颈模块进行处理而得到的。这一步骤的目的是将低层次特征与高层次特征进行整合,使模型能够更全面地理解小目标的特征。然后,通过在通道方向上拼接并整合Out1、Out2、Out3和Out4这四个不同层次的输出,充分利用了所有尺度的特征,从而提升了模型在小目标检测任务中的整体性能。最终,MFI模块采用了一种逐通道的特征集成方法,来聚合来自不同层次的特征,增强了对不同目标行为的识别能力,尤其是提高了在动态场景中捕捉小目标行为及其相互作用的准确性。
感知增强卷积在处理多尺度目标检测任务时,传统的卷积神经网络通常会面临诸如感受野固定、上下文信息利用不足以及环境感知能力有限等挑战。尤其是在小目标检测中,这些局限性会显著降低模型的性能。为了克服这些问题,我们引入了感知增强卷积(PEC)。
如上图所示,这是一个专门为骨干网络设计的模块,旨在取代传统的卷积层。PEC的主要优势在于,它在模型提取初级特征的阶段引入了一个新的维度,这能够显著扩大感受野,更有效地整合上下文信息,从而进一步加深模型对小目标及其所处环境的理解。具体来说,PEC模块首先将输入特征图精确切割成四个较小的特征图块,每个图块在空间维度上的尺寸都缩小一半。这种切割过程涉及到特定像素的选择,确保从原始特征图的左上角、右上角、左下角和右下角提取的代表性信息分别被捕捉到每个通道中。通过对空间维度如此细致的划分,得到的小图块在保留重要空间信息的同时,保证了信息的均匀覆盖。随后,这些小图块在通道维度上进行拼接,形成一个新的特征图,通道数量增加但空间分辨率降低,这样在保持较大感受野的同时,显著减轻了计算负担。为了进一步增强特征表达能力和计算效率,PEC中集成了一个压缩层,该层通过压缩特征维度来减少模型参数,同时即使在简化模型的情况下,也能确保关键特征得到突出。为了进行更深入的特征提取,我们采用了经典的瓶颈结构,这不仅提炼了特征的层次表示,还显著增强了模型对小目标的敏感度和认知能力,进一步提高了特征的计算效率。总的来说,通过PEC模块,模型被赋予了更强的环境适应性以及对目标关系的理解能力。PEC的创新设计使得特征图在扩大感受野的同时,能够获取关于目标和环境更全面、更详细的信息。这在交通监控等领域中对于目标分类和行为预测尤为关键,因为这些领域在很大程度上依赖于对细微变化和复杂场景的准确解读。
增强范围C2f在YOLOv8模型中,研究人员设计了C2f模块,以在获得更丰富的梯度流信息的同时保持网络的轻量化。然而,在处理航空影像中的小目标或低对比度目标时,这个模块无法充分表达精细特征,影响了对复杂尺度目标的检测精度。为了解决这个问题,本研究提出了一个改进模块,称为增强范围C2f(ES-C2f)。
如上图所示,该模块专注于提高网络捕捉细节的能力和特征利用效率,特别是在表达小目标和低对比度目标方面。ES-C2f模块通过扩大特征图的通道容量来增强网络对目标的表征能力,使模型能够捕捉到更细微的特征变化。这一策略致力于通过更广泛的特征表示,提高网络对小目标细节的敏感度,并增强对低对比度目标环境的适应性。为了在考虑计算效率的同时扩大通道容量,ES-C2f模块巧妙地集成了一系列压缩层。这些层对特征通道进行智能选择和压缩,不仅简化了特征表示,还保留了对关键信息的捕捉。这种特征操作的设计充分考虑了在降低模型复杂度和计算负载的同时,增强识别能力的需求。ES-C2f还进一步采用了堆叠多尺度卷积核以及结合局部和全局特征的策略。这为整合不同层次的特征提供了一种有效的方法,使模型能够在更丰富的特征维度上做出决策。深层语义信息与浅层纹理细节巧妙地交织在一起,增强了对尺度多样性的感知。
在该模块的末端引入了一个经过优化的压缩层,以进一步提炼特征的本质,并适应后续处理层的需求。这一设计不仅增强了特征表示能力,还提高了后续层的信息解码效率,使模型能够更精确地检测和识别目标。通过对YOLOv8架构中原始C2f模块的改进,所提出的ES-C2f模块为小目标和低对比度场景提供了更有效的解决方案。ES-C2f模块不仅在极具挑战性的场景中保持了模型的轻量化结构和响应速度,还显著提升了对复杂尺度目标检测的整体识别能力。
PART/4
实验及可视化
下表列出了训练环境配置:
如上图所示,在多种场景和具有挑战性的条件下,MPE-YOLO模型的检测置信度明显优于基线模型。这体现在它所识别的目标边界框具有更高的置信度分数,并且这些分数与实际目标更为相符。更重要的是,MPE-YOLO在减少误报和漏报方面也有显著改进,能够准确地识别出大多数目标,同时将对非目标区域的误判降至最低。此外,即使在光照条件不佳的情况下,MPE-YOLO也实现了较低的漏检率。这些对比结果突显了MPE-YOLO中增强的特征提取网络在处理目标之间的重叠、尺寸变化以及复杂背景方面的有效性,表明它具有更强健的特征学习能力和更准确的目标预测能力。
在上图中,经过改进的MPE-YOLO模型展示了其卓越的特征提取和目标定位能力。这从它所反映出的更加集中且增强的高响应区域中可以明显看出。这一特征在热图上表现为更亮的区域,紧密跟随目标的实际位置和轮廓,表明MPE-YOLO模型能够有效地聚焦于重要信号。此外,与基线模型相比,改进后的模型生成的热图显示目标周围的分散热点更少,这降低了误检和误报的可能性,体现了MPE-YOLO在小目标检测任务中的精确性和鲁棒性。
首先,第一行夜景的热图揭示了MPE-YOLO在低光照条件下的识别能力,其中亮度较强的区域被准确地映射到目标位置,这表明该模型在低光照水平下仍具有高效的特征捕捉能力。
其次,在第二行中,当面对复杂背景场景时,MPE-YOLO生成的热图保持了准确识别目标的能力,而不受复杂环境的影响。该模型对目标的清晰定位验证了它在实际环境中从杂乱背景中区分目标的有效性。
最后,在第三行密集小目标的情况下,MPE-YOLO热图显示出了出色的辨别能力,即使目标彼此非常接近。热图上的高亮区域密集且清晰地对应于每个小目标的轮廓,展示了该模型准确定位多个目标的能力。这些可视化证据与实验中mAP0.5和mAP0.5:0.95的提升相一致,为我们的研究提供了直观且有力的支持。
上图显示,与MPE-YOLO相比,YOLOv8在较小目标上存在大量的漏检情况,而MPE-YOLO的漏检情况明显更少。此外,MPE-YOLO在检测精度上也有了普遍提升。这些对比性的可视化结果强调了MPE-YOLO是更适合用于航空影像实际检测应用的模型。通过查看这些组图示可以明显看出,我们的MPE-YOLO优于YOLOv8,尤其是在存在较小且容易被忽视的目标的场景中,这进一步增强了它在航空目标检测任务中部署时的有效性和可靠性。
有相关需求的你可以联系我们!
END
转载请联系本公众号获得授权
计算机视觉研究院学习群等你加入!
ABOUT
计算机视觉研究院
计算机视觉研究院主要涉及深度学习领域,主要致力于目标检测、目标跟踪、图像分割、OCR、模型量化、模型部署等研究方向。研究院每日分享最新的论文算法新框架,提供论文一键下载,并分享实战项目。研究院主要着重”技术研究“和“实践落地”。研究院会针对不同领域分享实践过程,让大家真正体会摆脱理论的真实场景,培养爱动手编程爱动脑思考的习惯!
往期推荐
🔗