存在的问题
无人机获得的图像与人工捕获的地面图像相比存在显著差异。包括大图像尺寸、小尺寸检测对象、密集分布、重叠实例和影响目标检测有效性的光照不足。
本文改进
1.对YOLOv8模型的颈部组件采用了三层PAFPN结构,并结合了一个使用大规模特征图为小尺寸物体量身定制的检测头。
2.将三明治融合模块集成到颈部上下分支的每一层中。
3.在网络骨干网中,我们采用RepVGG模块作为下采样层,增强了网络学习多尺度特征的能力,并且优于传统的卷积层。
模型架构
RepVGG模块
在RepVGG模块中,在训练阶段有两个不同的卷积核,3 ×3和1×1。这是由于在特征图上计算时,不同大小的卷积核的运动过程是一致的。当模型用于推理时,可以通过结构重新参数化将1×1和3×3卷积核组合成单个3×3核。具体的方法是将1×1核的周围部分填充成3×3的形式。基于相同大小卷积核的可加性原理,将填充后的核加入到原来的3 ×3卷积核中,形成一个3 ×3卷积核进行推理。
颈部
自上向下分支:该分支由1、2、3层组成,不同层通过SPPF模块分别从主干层和阶段1、阶段2、阶段3、阶段4接收特征映射P1、P2、P3、P4、P5。
自下而上分支:该分支由0、1、2层组成,输入来自自上向下分支的输出,以及骨干通过SPPF的第4阶段层的特征映射。它们的输出由C2、C3、C4、C5四个不同大小的特征图组成。
三明治融合模块
三明治融合是一种新型的3尺寸特征图融合模块。该模块应用于Neck的自上向下层。三明治融合包括低阶特征层、对应阶特征层、高阶特征层。其目标是平衡低层特征的空间信息和高层特征的语义信息。
实验与结果
数据集
VisDrone2019的目标检测数据集由图像和相应的标注文件组成,其中训练集图像为6471张,验证集图像为548张,测试集图像为1610张,竞赛集图像为1580张;
实验结果
在VisDrone2019-test数据集上进行测试,评估结果依据每个对象类型的mAP0.5。
所提出的Drone-YOLO(大型)在mAP0.5中取得了最好的效果。
消融实验
总结
在本文中,我们提出了基于YOLOv8模型的多尺度无人机图像目标检测算法Drone-YOLO。这些算法旨在解决与无人机图像目标检测相关的特定挑战。考虑到无人机图像场景较多,检测对象相对较少,我们对YOLOv8模型的颈部进行了改进。我们引入了三层PAFPN结构,基于160张×160特征图,增强了对小尺寸物体的检测。这一改进显著增强了算法检测小尺寸目标的能力。此外,我们在颈部上下分支的每一层中都加入了三明治融合模块。这种结构允许将网络特征与包含丰富对象空间信息的底层特征融合。我们通过使用深度可分离进化来实现这种融合,这种进化产生较小的参数并提供较大的接受场。在骨干网中,我们使用RepVGG模块作为下采样层。与卷积层相比,RepVGG模块增强了网络学习多尺度特征的能力,并产生了更好的检测结果。
在我们的实验中,在ViSDrone2019-test数据集中,我们提出的Drone-YOLO(大型)在mAP0.5中的类目标检测方面优于基线方法,并且在mAP0.5指标的10个类中有7个表现最好。