【论文阅读】BGF-YOLO: Enhanced YOLOv8 with Multiscale Attentional Feature Fusion for Brain Tumor

『AI先锋杯·14天征文挑战第7期』 10w+人浏览 319人参与

论文链接:https://arxiv.org/pdf/2309.12585

Code: https://github.com/mkang315/BGF-YOLO

来源: Medical Image Computing and Computer Assisted Intervention – MICCAI 2024

摘要:

针对脑肿瘤检测的新型深度学习模型,名为BGF-YOLO。该模型基于YOLO系列检测器,结合了三大创新技术:双层路由注意机制(Bi-level routing attention)、通用特征金字塔网络(Generalized feature pyramid networks)和第四检测头(Fourth detecting head)。这些改进使模型能够更有效地关注关键信息,同时丰富特征表达,通过融合高层语义特征与空间细节,提升检测性能。

具体而言:

  • 注意机制(attention mechanism)帮助模型更关注重要特征,从而提升检测的准确性。
  • 特征金字塔网络(feature pyramid networks)通过不同尺度的信息融合,增强模型对不同大小和特征的肿瘤的检测能力。
  • 新增的第四检测头(Fourth detecting head)扩展了模型的尺度覆盖范围,使其能更好地检测各种尺寸的脑肿瘤。

实验结果显示,BGF-YOLO在脑肿瘤检测数据集Br35H上,比原始的YOLOv8x模型提升了4.7%的mAP50(平均精度值,衡量检测性能的标准指标),达到了业界的最新水平(state-of-the-art)。

1. 引言

早期诊断可以带来更有效的治疗和更好的预后。脑MRI是检测脑肿瘤的最佳影像手段,而YOLO系列在此任务中已被证实具有较高的准确性。Kang等人提出了基于channel shuffle和重新参数化卷积技术的RCS-YOLO模型,在平衡检测精度和速度方面表现良好

关于YOLOv8架构,主要由三个部分组成:骨干(backbone)、颈部(neck)和头部(head)骨干负责特征提取,包含卷积(Conv)、C2f(捷径)和空间金字塔池化(SPPF)模块。C2f模块较YOLOv5中的C3结构更轻量,增强了特征表达能力。SPPF模块则提升了对不同尺度特征的捕获能力

颈部部分,使用了特征金字塔网络(FPN)和路径聚合网络(PANet)实现多尺度特征融合,将浅层信息和深层信息有效结合。头部结构采用解耦设计,将分类和回归分开,避免任务之间的冲突,同时采用无锚机制(anchor-free)以更好检测不规则大小的目标。损失函数方面,YOLOv8使用二元交叉熵损失(binary cross-entropy)和方差焦点损失(varifocal loss),同时配合使用完整交并比(CIoU)损失以减少边界框重叠。

最新的YOLOv8改进集中于注意力机制、多尺度特征融合网络和回归损失的优化。例如,MHSA-YOLOv8引入了多头自注意力机制,轻量化版本结合双路径门控注意力和特征增强模块,亦有采用不对称特征金字塔网络(AFPN)、BiFormer块、WIoU等技术的变体

在本文提出了BGF-YOLO模型,主要通过以下创新措施提升检测性能:

  1. 重新设计了YOLOv8的颈部,采用基于GFPN的结构化特征融合网络,以加强不同层级的特征融合能力
  2. 引入BRA(Bi-level Routing Attention)结合动态和稀疏注意力机制,更好地关注重要特征,减少冗余
  3. 增加第四个检测头,将尺度范围扩展到更大的对象,有助于检测不同大小的脑肿瘤,并优化回归损失以提升准确性

综上,这些改进旨在增强模型的特征表达和尺度适应能力,从而提升脑肿瘤的检测效率和准确性。

2. 方法

在这里插入图片描述

BGF-YOLO的整体架构

  • BGF-YOLO的“neck”部分比传统的YOLOv8更深、更复杂(“very deep and heavy”),而YOLOv8的neck部分较轻。这个“heavy”设计意味着它加强了多层特征融合能力,有助于捕获不同尺度和细节信息。
  • backbone(骨架)和head(检测头)部分沿用YOLOv8的设计,但“neck”进行了特殊优化。

2.1 增强的GFPN(Generalized Feature Pyramid Network)

背景:在深度学习中,为了检测不同尺寸的目标(如各种大小的脑肿瘤),需要有效融合不同层次的特征信息。

  • FPN(特征金字塔网络)最早提出解决阶层特征融合的问题,帮助模型融合不同尺度的特征,从而提升检测多尺度目标的能力。
  • PANet(Path Aggregation Network)加强特征传播,促进信息的重复利用和特征的表达。
  • BiFPN(Bidirectional FPN):在FPN基础上增加了自底向上路径,使特征融合更高效,可以同时利用低层和高层信息。
  • GFPN(Generalized-FPN):基于“密集连接”和“皇后融合”策略(queen fusion),用串联(concat)操作替代相加,减少信息损失,提升融合效果。
  • AFPN(Adaptive Spatial Fusion):采用自适应空间融合,从底层特征到更高级别的特征逐步融合,增强关键层特点,减轻不同目标之间信息冲突的问题。

在YOLOv5和YOLOv8中的应用区别

  • 两者都用FPN和PANet进行多尺度融合,但YOLOv8的“neck”用C2f(无shortcut)模块替换了YOLOv5中的C3模块,简化了结构。

具体的改造措施(模型优化)

  • 多路径融合强化:通过增强不同层之间的连接,提高多层特征的融合能力,这对脑肿瘤检测至关重要,因为肿瘤大小、形状、位置变化很大。
  • 引入CSP(Cross Stage Partial DenseNet):替代C2f模块,加入跳跃连接(skip connections)和稠密连接(dense connection),使模型可以在不同尺度间共享信息。
  • 这让模型同时关注低层空间细节和高层语义信息,提高对多样肿瘤特征的表达能力和鲁棒性,尤其是在脑肿瘤尺寸和类型多变的情况下表现更优。

2.2 BRA(Bi-level Routing Attention)注意机制:

多尺度特征融合的挑战:在YOLOv8的“颈部”部分,不同网络层提取的特征图被融合,以提升多尺度目标检测性能。然而,这个融合层存在冗余信息的问题,即不同特征图中包含重复或无关的信息,从而影响检测准确性。

引入注意机制的目的:为了克服这个问题,作者考虑在特征融合过程中加入注意机制,这种机制可以根据特征的重要性进行加权,突出相关特征,抑制无关特征,从而提升模型性能。

现有的注意机制类型:文中提到五种具有潜力的注意机制:

  • SE(Squeeze-and-Excitation):通道注意,用于调整每个通道的响应,以建模通道之间的依赖关系。
  • ECA(Efficient Channel Attention):只关注局部通道交互,计算量较低。
  • RFA(Receptive-Field Attention)BRA:空间注意机制,增强特征中的空间关系。
  • CBAMCA:同时支持通道和空间的注意。

BRA的特点与优势

  • 是一种“动态、查询感知的稀疏注意机制”。
  • 只关注每个“查询”对应的少量最相关的“键/值”,实现内容感知的稀疏匹配。
  • 通过分区域(segmenting)和线性变换产生查询、键、值。
  • 构建有向图(通过邻接矩阵)以定位不同区域之间的关系。
  • 使用多头自注意力(multi-head self-attention)在区域间进行调度,重点关注脑部肿瘤区域。

具体的融合方法

  • 将BRA模块放置在卷积或上采样后,用于特征融合,增强模型对目标区域(如肿瘤部分)的关注。
  • 通过“区域级关系”的匹配,减少无关区域的干扰,提取最相关的特征。
  • 采用“二层路由优化”,引导模型更专注于MRI扫描中潜在的肿瘤区域,提升检测准确性。

总结作用

  • 利用BRA模块实现高效、多尺度的特征融合。
  • 去除冗余信息,突出重点区域,提高对肿瘤等微妙特征的检测能力。
  • 该方法唯一使用了BiFormer中的BRA模块,而没有将整个BiFormer集成到YOLOv8中。

2.3 增强检测头

原始YOLOv8的检测头

  • 具有三个检测头,分别对应不同的尺度:20×20、40×40 和 80×80。
  • 这些尺度主要用于检测不同大小的目标,但对于脑肿瘤检测,特别是较大或多样化大小的肿瘤,原有的尺度不足以满足需求。

引入更大尺度的检测头

  • 增加一个新的检测头,尺寸为160×160,与特征融合网络的新结构相匹配。
  • 这个“第四检测头”被加入到原有的80×80尺度检测头旁边。

功能和优势

  • 新的检测头融合了输入图像的浅层信息(来自C2f模块的shortcut信息),利用额外的特征融合网络增强特征信息。
  • 这使得模型能够检测各种尺度的目标,特别是更大或不同尺度的肿瘤。

应用场景的好处

  • 不同大小的肿瘤具有不同的特征,增加检测头有助于模型能更准确地识别和定位这些不同尺度的肿瘤。
  • 逐步检测(progressive detection)策略:模型可以先识别潜在区域,然后通过后续细化提高检测完全性和精确性,从而提升整体检测的鲁棒性和准确率。

3. 实验和结果

3.1 数据详情

数据集介绍:数据集名为Br35H,包含801张带有标注脑肿瘤的MRI图像。

数据集的划分

  • 训练集:500张图像,用于模型训练。
  • 验证集:201张图像,用于调优模型参数和验证模型性能。
  • 测试集:100张图像,用于最终的测试评估。

评估方式:所有的实验结果都是在测试集上进行测试得出的,也就是说,用于评估模型性能的指标(如精确率、平均精度等)都是基于测试集的表现。

3.2 实现细节

具体硬件如下:

  • CPU:Intel QR Xe(型号可能为Xeon系列)的一台铜;
  • CPU频率:2.50 GHz;
  • GPU:NVIDIA GeForce GTX 1060 6GB显卡。

所有的模型训练都采用了YOLOv8x的架构作为基础。关于训练参数(超参数):

  • 批量大小(batch size):设为5;
  • 训练轮数(epochs):共120轮;
  • 优化器:采用随机梯度下降(SGD),
  • 初始学习率:0.01,
  • 最终学习率:0.01(可能在训练过程中保持不变或有调整),
  • 动量(momentum):0.937。

3.3 结果

在这里插入图片描述

选择了各种竞争模型中表现最好的版本,并采用了与它们相同的评估指标。根据表1的结果,BGF-YOLO在以下几个方面比YOLOv8x模型有明显的性能提升:

  • 精确率(Precision)提高了1.2%
  • 平均精度(mAP50)提高了4.7%
  • mAP50:95(针对不同IoU阈值的平均精度指标)提高了0.7%

此外,BGF-YOLO还优于其他几款先进的检测模型,包括YOLOv9-E、YOLOv10-X、RCS-YOLO和DAMO-YOLO-L*。它不仅超越了基本的YOLOv8模型,还优于采用GFPN结构的DAMO-YOLO以及速度快且高精度的RCS-YOLO。

3.4 消融实验

在这里插入图片描述

整体架构的消融分析:评估了四个不同的简化版BGF-YOLO模型,即分别去除不同的模块(BRA、GFPN、第四检测头、GIoU)。

结果显示:

  • BRA(Bi-level Routing Attention):引入注意机制,显著提升模型性能。
  • GFPN(Generalized-FPN):有效改进多尺度特征融合。
  • 第四检测头:对准确率(特别是mAP50)影响最大,提升最明显。
  • GIoU(Generalized IoU):作为回归损失之一,也对模型表现有贡献。
  • 未使用GFPN(w/o GFPN)意味着继续用原始的YOLOv8 FPN-PANet结构。

多尺度特征融合结构的比较

在这里插入图片描述

  • 将BGF-YOLO中的GFPN替换为其他结构,如BiFPN和AFPN,得到的模型分别叫BBF-YOLO和BAF-YOLO。
  • 结果表明,使用GFPN的模型在精确率(precision)、mAP50和mAP50:95上都优于使用BiFPN或AFPN的模型。

注意机制的分析:研究了多种注意力机制:SE(S)、ECA(E)、CBAM(C)、CA(A)、RFA(R)、BRA(B)。

在这里插入图片描述

  • BRA带来最大性能提升,显著优于其他注意力机制。
  • CBAM排名第二,但在某些指标(如精度)上略逊于BRA。
  • 虽然ECA和CA在mAP50:95方面表现更高,但在mAP50方面,BRA优于ECA和CA。

回归损失函数的选择:比较不同的回归损失:GIoU、DIoU、EIoU、SIoU和WIoU v3。

在这里插入图片描述

结果显示:

  • 原始的CIoU在YOLOv8中表现更鲁棒,尤其是mAP50指标。
  • DIoU与CIoU接近,有竞争力。
  • GIoU和EIoU在mAP50:95指标上表现更优,但在总体场景下,因考虑鲁棒性,选择CIoU作为回归损失。

4. 结论

本文提出了一种新的模型,叫做BGF-YOLO,它是在YOLOv8的基础上开发的,旨在更准确地检测MRI中的脑肿瘤。通过优化GFPN特征融合结构、引入BRA注意机制,以及添加一个新的检测头,这些改进大大增强了YOLOv8的目标检测能力。这些改进使模型可以在不同层次和更丰富尺度上进行加权特征融合,并生成高质量的锚框,具有动态调焦机制,从而提升检测性能
此外,作者的BGF-YOLO模型在一系列的实验中,表现优于其他替代技术(如不同的特征融合方式、注意机制和回归损失方法)。最后,他们指出,BGF-YOLO已成为在脑肿瘤检测数据集Br35H上最先进的模型。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值