【阅读文献笔记】Drone-YOLO: An Efficient Neural Network Method for Target Detection in Drone Images

最新推荐文章于 2025-03-07 20:57:35 发布

梨V_v

最新推荐文章于 2025-03-07 20:57:35 发布

阅读量549

点赞数 5

分类专栏：文献文章标签：笔记 YOLO

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_46460379/article/details/143716461

版权

文献专栏收录该内容

61 篇文章

订阅专栏

存在的问题

无人机获得的图像与人工捕获的地面图像相比存在显著差异。包括大图像尺寸、小尺寸检测对象、密集分布、重叠实例和影响目标检测有效性的光照不足。

本文改进

1.对YOLOv8模型的颈部组件采用了三层PAFPN结构，并结合了一个使用大规模特征图为小尺寸物体量身定制的检测头。

2.将三明治融合模块集成到颈部上下分支的每一层中。

3.在网络骨干网中，我们采用RepVGG模块作为下采样层，增强了网络学习多尺度特征的能力，并且优于传统的卷积层。

模型架构

RepVGG模块

在RepVGG模块中，在训练阶段有两个不同的卷积核，3 ×3和1×1。这是由于在特征图上计算时，不同大小的卷积核的运动过程是一致的。当模型用于推理时，可以通过结构重新参数化将1×1和3×3卷积核组合成单个3×3核。具体的方法是将1×1核的周围部分填充成3×3的形式。基于相同大小卷积核的可加性原理，将填充后的核加入到原来的3 ×3卷积核中，形成一个3 ×3卷积核进行推理。

颈部

自上向下分支：该分支由1、2、3层组成，不同层通过SPPF模块分别从主干层和阶段1、阶段2、阶段3、阶段4接收特征映射P1、P2、P3、P4、P5。

自下而上分支：该分支由0、1、2层组成，输入来自自上向下分支的输出，以及骨干通过SPPF的第4阶段层的特征映射。它们的输出由C2、C3、C4、C5四个不同大小的特征图组成。

三明治融合模块

三明治融合是一种新型的3尺寸特征图融合模块。该模块应用于Neck的自上向下层。三明治融合包括低阶特征层、对应阶特征层、高阶特征层。其目标是平衡低层特征的空间信息和高层特征的语义信息。

实验与结果

数据集

VisDrone2019的目标检测数据集由图像和相应的标注文件组成，其中训练集图像为6471张，验证集图像为548张，测试集图像为1610张，竞赛集图像为1580张；

实验结果

在VisDrone2019-test数据集上进行测试，评估结果依据每个对象类型的mAP0.5。

所提出的Drone-YOLO(大型)在mAP0.5中取得了最好的效果。

消融实验

总结

在本文中，我们提出了基于YOLOv8模型的多尺度无人机图像目标检测算法Drone-YOLO。这些算法旨在解决与无人机图像目标检测相关的特定挑战。考虑到无人机图像场景较多，检测对象相对较少，我们对YOLOv8模型的颈部进行了改进。我们引入了三层PAFPN结构，基于160张×160特征图，增强了对小尺寸物体的检测。这一改进显著增强了算法检测小尺寸目标的能力。此外，我们在颈部上下分支的每一层中都加入了三明治融合模块。这种结构允许将网络特征与包含丰富对象空间信息的底层特征融合。我们通过使用深度可分离进化来实现这种融合，这种进化产生较小的参数并提供较大的接受场。在骨干网中，我们使用RepVGG模块作为下采样层。与卷积层相比，RepVGG模块增强了网络学习多尺度特征的能力，并产生了更好的检测结果。

在我们的实验中，在ViSDrone2019-test数据集中，我们提出的Drone-YOLO(大型)在mAP0.5中的类目标检测方面优于基线方法，并且在mAP0.5指标的10个类中有7个表现最好。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。