【阅读文献笔记】Drone-YOLO: An Efficient Neural Network Method for Target Detection in Drone Images

存在的问题

无人机获得的图像与人工捕获的地面图像相比存在显著差异。包括大图像尺寸、小尺寸检测对象、密集分布、重叠实例和影响目标检测有效性的光照不足。

本文改进

1.对YOLOv8模型的颈部组件采用了三层PAFPN结构,并结合了一个使用大规模特征图为小尺寸物体量身定制的检测头。

2.将三明治融合模块集成到颈部上下分支的每一层中。

3.在网络骨干网中,我们采用RepVGG模块作为下采样层,增强了网络学习多尺度特征的能力,并且优于传统的卷积层。

模型架构

RepVGG模块

在RepVGG模块中,在训练阶段有两个不同的卷积核,3 ×3和1×1。这是由于在特征图上计算时,不同大小的卷积核的运动过程是一致的。当模型用于推理时,可以通过结构重新参数化将1×1和3×3卷积核组合成单个3×3核。具体的方法是将1×1核的周围部分填充成3×3的形式。基于相同大小卷积核的可加性原理,将填充后的核加入到原来的3 ×3卷积核中,形成一个3 ×3卷积核进行推理。

颈部

自上向下分支:该分支由1、2、3层组成,不同层通过SPPF模块分别从主干层和阶段1、阶段2、阶段3、阶段4接收特征映射P1、P2、P3、P4、P5。

自下而上分支:该分支由0、1、2层组成,输入来自自上向下分支的输出,以及骨干通过SPPF的第4阶段层的特征映射。它们的输出由C2、C3、C4、C5四个不同大小的特征图组成。

三明治融合模块

三明治融合是一种新型的3尺寸特征图融合模块。该模块应用于Neck的自上向下层。三明治融合包括低阶特征层、对应阶特征层、高阶特征层。其目标是平衡低层特征的空间信息和高层特征的语义信息。

实验与结果

数据集

 VisDrone2019的目标检测数据集由图像和相应的标注文件组成,其中训练集图像为6471张,验证集图像为548张,测试集图像为1610张,竞赛集图像为1580张

实验结果

在VisDrone2019-test数据集上进行测试,评估结果依据每个对象类型的mAP0.5。

所提出的Drone-YOLO(大型)在mAP0.5中取得了最好的效果。

消融实验

总结

在本文中,我们提出了基于YOLOv8模型的多尺度无人机图像目标检测算法Drone-YOLO。这些算法旨在解决与无人机图像目标检测相关的特定挑战。考虑到无人机图像场景较多,检测对象相对较少,我们对YOLOv8模型的颈部进行了改进。我们引入了三层PAFPN结构,基于160张×160特征图,增强了对小尺寸物体的检测。这一改进显著增强了算法检测小尺寸目标的能力。此外,我们在颈部上下分支的每一层中都加入了三明治融合模块。这种结构允许将网络特征与包含丰富对象空间信息的底层特征融合。我们通过使用深度可分离进化来实现这种融合,这种进化产生较小的参数并提供较大的接受场。在骨干网中,我们使用RepVGG模块作为下采样层。与卷积层相比,RepVGG模块增强了网络学习多尺度特征的能力,并产生了更好的检测结果。

在我们的实验中,在ViSDrone2019-test数据集中,我们提出的Drone-YOLO(大型)在mAP0.5中的类目标检测方面优于基线方法,并且在mAP0.5指标的10个类中有7个表现最好。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值