具有重新参数化异构卷积的多分支辅助融合YOLO,用于精确的目标检测(MAF-YOLO)

中英文对照阅读icon-default.png?t=N7T8https://yiyibooks.cn/arxiv/2407.04381v1/index.html

摘要

由于多尺度特征融合的有效性能,路径聚合 FPN (PAFPN) 被广泛应用于 YOLO 检测器中。 然而,它不能有效地、自适应地同时集成高层语义信息和低层空间信息。 我们在本文中提出了一种名为 MAF-YOLO 的新模型,它是一种新颖的目标检测框架,具有多功能颈部,称为多分支辅助 FPN(MAFPN)。 在 MAFPN 中,浅层辅助融合(SAF)模块旨在将骨干和颈部的输出结合起来,保留最佳水平的浅层信息,以促进后续学习。 同时,深深嵌入颈部的高级辅助融合(AAF)模块向输出层传递更多样化的梯度信息。 此外,我们提出的重新参数化异构高效层聚合网络(RepHELAN)模块确保整体模型架构和卷积设计都包含异构大卷积核的利用。 因此,这保证了与小目标相关的信息的保存,同时实现了多尺度感受野。 最后,以MAF-YOLO的nano版本为例,仅用3.76M可学习参数和10.51G FLOPs,它就能在COCO上实现42.4%的AP,大约比YOLOv8n高5.1%左右。 这项工作的源代码位于:https://github.com/yang-0201/MAF-YOLO

模型架构

如图2所示,我们将一级目标检测器的宏观架构分解为三个主要部分:脊柱、颈部和头部。 在MAF-YOLO中,输入图像最初通过主干网,主干网由四个阶段组成:P2、P3、P4和P5。 我们将 MAFPN 设计为颈部结构。 在第一个自下而上的路径中,SAF模块负责从主干中提取多尺度特征,并在颈部的浅层进行基础知识辅助融合。 同时,AAF通过第二个自上而下路径中更密集的连接从每一层收集梯度信息,最终引导头部获得跨三种分辨率的多样化输出信息。 上述两种结构均采用 RepHELAN 模块进行特征提取,该模块利用动态大小的卷积核来实现自适应感受野。 最后,检测头根据每个尺度的特征图预测对象边界框及其相应的类别,以计算其损失。

图2:MAF-Y

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值