具有重新参数化异构卷积的多分支辅助融合YOLO,用于精确的目标检测(MAF-YOLO)

中英文对照阅读icon-default.png?t=N7T8https://yiyibooks.cn/arxiv/2407.04381v1/index.html

摘要

由于多尺度特征融合的有效性能,路径聚合 FPN (PAFPN) 被广泛应用于 YOLO 检测器中。 然而,它不能有效地、自适应地同时集成高层语义信息和低层空间信息。 我们在本文中提出了一种名为 MAF-YOLO 的新模型,它是一种新颖的目标检测框架,具有多功能颈部,称为多分支辅助 FPN(MAFPN)。 在 MAFPN 中,浅层辅助融合(SAF)模块旨在将骨干和颈部的输出结合起来,保留最佳水平的浅层信息,以促进后续学习。 同时,深深嵌入颈部的高级辅助融合(AAF)模块向输出层传递更多样化的梯度信息。 此外,我们提出的重新参数化异构高效层聚合网络(RepHELAN)模块确保整体模型架构和卷积设计都包含异构大卷积核的利用。 因此,这保证了与小目标相关的信息的保存,同时实现了多尺度感受野。 最后,以MAF-YOLO的nano版本为例,仅用3.76M可学习参数和10.51G FLOPs,它就能在COCO上实现42.4%的AP,大约比YOLOv8n高5.1%左右。 这项工作的源代码位于:https://github.com/yang-0201/MAF-YOLO

模型架构

如图2所示,我们将一级目标检测器的宏观架构分解为三个主要部分:脊柱、颈部和头部。 在MAF-YOLO中,输入图像最初通过主干网,主干网由四个阶段组成:P2、P3、P4和P5。 我们将 MAFPN 设计为颈部结构。 在第一个自下而上的路径中,SAF模块负责从主干中提取多尺度特征,并在颈部的浅层进行基础知识辅助融合。 同时,AAF通过第二个自上而下路径中更密集的连接从每一层收集梯度信息,最终引导头部获得跨三种分辨率的多样化输出信息。 上述两种结构均采用 RepHELAN 模块进行特征提取,该模块利用动态大小的卷积核来实现自适应感受野。 最后,检测头根据每个尺度的特征图预测对象边界框及其相应的类别,以计算其损失。

图2:MAF-YOLO的网络架构概述。

全局异构内核选择机制(GHKS)

影响 Transformer 有效性的一个重要因素是它们的自注意力机制,它在全局或更大的窗口范围内执行查询键值操作。 类似地,大的卷积核可以捕获局部和全局特征,并且使用中等大的卷积核来增加有效感受野已经在一些工作中被证明是有效的。 Trident Network [12] 进行的研究表明,具有较大感受野的网络更适合检测较大的物体,而相反,较小规模的目标受益于较小的感受野。 YOLO-MS[3]引入了异构核选择(HKS)协议的概念。 在主干中采用3、5、7和9的增量卷积核设计来平衡性能和速度。 受这项工作的启发,我们将其扩展到全局异构核选择(GHKS)机制,将异构大卷积核的概念集成到整个MAF-YOLO架构中。 除了主干RepHELAN中逐步增加的卷积核外,我们还在MAFPN中引入了5、7、9的大卷积核以适应不同分辨率的要求,从而逐步获得多尺度的感觉场信息。

多分支辅助FPN(MAFPN: SAF和AAF)

精确定位依赖于浅层网络的详细边缘信息,而精确分类则需要更深的网络来捕获粗粒度信息[18]。 我们认为,有效的FPN应该支持浅层和深层网络信息流的充分、充分的融合。

图3:浅表辅助融合的架构。

表面辅助融合。(SAF)

图4:高级辅助融合的架构。

高级辅助融合(AAF)

重参数化异构高效层聚合网络(RepHELAN)

图5:(a) RepHELAN 网络架构概述,(b) RepHELAN 中训练和推理阶段的反向瓶颈结构,(c) 7×7 RepHDWConv 的重新参数化过程。

重新参数化的异构深度卷积(RepHDWConv)

首先,我们在全局架构中采用具有大内核的深度卷积来实现上述GHKS机制。 我们的研究还表明,虽然较大的卷积核可以通过编码更广泛的区域来提高性能,但它们可能会无意中掩盖与小目标相关的细节,从而留下进一步改进的空间。 因此,我们将异构思想从全局架构转移到单个卷积,并结合重新参数化[6, 5]的思想来实现RepHConv。 具体来说,我们通过同时运行大和小卷积核来补充小目标的检测。 不同大小的卷积核增强了网络的 ERF 和特征的多样化表示。 如图5(b)所示,反向瓶颈在训练和推理之间表现出一定的差异。 在训练过程中,网络运行n个不同大小的并行深度卷积(DWConv)操作,而在推理过程中,这些卷积被合并为一个,从而导致推理速度没有降低。 我们相信 RepHDWConv 是一种卓越的卷积策略,可以以最小的损失增强跨多个尺度的表示能力。

实验

数据集。

我们在 Microsoft COCO 2017 [14] 数据集上进行了广泛的实验,以验证所提出的 MAF-YOLO 的有效性。 具体来说,所有方法的训练都是在 115k 训练图像上进行的,我们报告了消融研究的 5000 个验证图像的结果。 我们报告了不同 IoU 阈值和目标尺度下的标准平均精度(AP)的结果。

实现细节。

我们的实现基于YOLOv6-2.0框架。 所有实验均使用 8 个 NVIDIA GeForce RTX 2080Ti GPU 进行,MAF-YOLO 的所有尺度均从头开始训练 300 个 epoch,不依赖于其他大规模数据集,如 ImageNet [4],或预先训练的权重。 除此之外,我们采用了更强大的基于动态缓存的混合[26]和马赛克机制,并用轻量级的RepHDWConv简单地替换了YOLOv6输出标头中的两个3×3卷积。 更多实施细节可以在补充材料中找到。

RepHELAN分析

在本小节中,我们将在 RepHELAN 模块上进行一系列消融研究。 默认情况下,我们使用 MAF-YOLO nano 进行所有实验。

不同的计算块。

我们首先使用表 1 中其他高级 YOLO 模型的各种计算块对 RepELAN 模块进行消融实验。 1. 我们的RepHELAN与其他模块相比不仅具有更高的参数利用率,而且还实现了更高的精度。

RepHELAN 消融研究。

MAFPN分析

在本小节中,我们对MAFPN的各个模块进行了烧蚀实验,并通过在各种实验中用不同的算法替换颈部结构来展示MAFPN的即插即用能力。

MAFPN的消融研究。

本次实验结果,如表1所示。 3,模型的默认颈部设置为PAFPN,其中包括六个RepHELAN Block。 首先,我们将 SAF 模块合并到主干和颈部的浅层中,这导致性能提升了 0.3%,增加了 0.3M 参数,值得注意的是,通过 SAF,我们实现了小目标性能的 1% 提升。 其次,通过单独添加 AAF 模块,我们观察到针对所有尺度的对象的性能都有所提高。 最终,当使用 SAF 和 AAF 的组合时,获得了模型的最大性能。

其他模型的消融研究。

MAFPN可以作为其他模型的即插即用模块,结果如表1所示。 4. 首先,我们将主流单级检测器YOLOv8n中的PAFPN替换为MAFPN,并改变通道数以保持模型更小。 YOLOv8n-MAFPN 使用更少的 epoch(-200 epoch)和更少的参数,获得了 2% 的 AP 改进,体现了 MAFPN 的优异性能。 此外,我们还在实例分割任务中使用两级检测器 Cascade MaskRCNN [2] 验证了 MAFPN 的有效性。

MAF-YOLO的消融研究

MAF-YOLO包含MAFPN、RepHELAN模块和GHSK策略,我们依次进行消融实验,结果如表2所示。 5. 我们首先添加MAFPN结构,增加了0.5M参数数量,性能提升了2.1%AP,然后通过添加轻量级RepHELAN模块,减少了1.2M参数数量,性能反而提升了1.1% AP,最后,GHSK 方法在边际参数成本下将模型精度提高了 1.2% AP。

与最先进技术的比较

标签。 6和图6展示了我们提出的MAF-YOLO与其他SOTA实时目标检测器的比较。 与纳米级模型相比,MAF-YOLOn 的参数数量略多于 YOLOv8n,但 AP 提高了 5.1%。 与当前较新的 Gold-YOLOn 相比,MAF-YOLOn 减少了约 36% 的参数和 13% 的计算量,但 AP 仍提高了 2.5%。 我们的模型对于小规模模型也有很大的优势,与无锚版本的 YOLOv7s 相比,MAF-YOLOs 的参数少了 22%,AP 显着提升了 2.3%。 还值得注意的是,与当前的 SOTA 模型 YOLOv9s 相比,我们的 MAF-YOLO 取得了可比的结果,比具有可比参数和计算的 YOLOv9s 高了 0.6 AP。 此外,我们还展示了几种两级和基于 Transformer 的探测器,其中我们的模型展示了卓越的性能并且更轻量。 不同算法在COCO验证集上的一些检测结果如图7所示。

5结论

在本文中,我们引入MAFPN作为解决传统YOLO中PAFPN局限性的解决方案,它包含两个关键组件:SAF和AAF。 SAF用于有效保留主干中的浅层信息,而AAF通过增强的信息融合促进输出层保留各种多尺度信息。 此外,我们将 GHSK 集成到 MAF-YOLO 中,它在整个架构中动态扩展卷积核,以显着扩展网络的感知领域。 此外,我们还引入了 RepHELAN 模块,该模块利用重新参数化的异构卷积来极大地增强多尺度表征能力。 因此,MAF-YOLO 展示了出色的整体性能,同时保持了相当数量的参数。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值