【论文阅读】BGF-YOLO: Enhanced YOLOv8 with Multiscale Attentional Feature Fusion for Brain Tumor

最新推荐文章于 2025-11-02 21:35:58 发布

原创最新推荐文章于 2025-11-02 21:35:58 发布 · 791 阅读

13 ·

CC 4.0 BY-SA版权

文章标签：

#论文阅读 #YOLO #目标检测 #医学图像

论文阅读专栏收录该内容

42 篇文章

订阅专栏

『AI先锋杯·14天征文挑战第7期』 10w+人浏览 319人参与

论文链接：https://arxiv.org/pdf/2309.12585

Code： https://github.com/mkang315/BGF-YOLO

来源： Medical Image Computing and Computer Assisted Intervention – MICCAI 2024

摘要：

针对脑肿瘤检测的新型深度学习模型，名为BGF-YOLO。该模型基于YOLO系列检测器，结合了三大创新技术：双层路由注意机制（Bi-level routing attention）、通用特征金字塔网络（Generalized feature pyramid networks）和第四检测头（Fourth detecting head）。这些改进使模型能够更有效地关注关键信息，同时丰富特征表达，通过融合高层语义特征与空间细节，提升检测性能。

具体而言：

注意机制（attention mechanism）帮助模型更关注重要特征，从而提升检测的准确性。
特征金字塔网络（feature pyramid networks）通过不同尺度的信息融合，增强模型对不同大小和特征的肿瘤的检测能力。
新增的第四检测头（Fourth detecting head）扩展了模型的尺度覆盖范围，使其能更好地检测各种尺寸的脑肿瘤。

实验结果显示，BGF-YOLO在脑肿瘤检测数据集Br35H上，比原始的YOLOv8x模型提升了4.7%的mAP50（平均精度值，衡量检测性能的标准指标），达到了业界的最新水平（state-of-the-art）。

1. 引言

早期诊断可以带来更有效的治疗和更好的预后。脑MRI是检测脑肿瘤的最佳影像手段，而YOLO系列在此任务中已被证实具有较高的准确性。Kang等人提出了基于channel shuffle和重新参数化卷积技术的RCS-YOLO模型，在平衡检测精度和速度方面表现良好。

关于YOLOv8架构，主要由三个部分组成：骨干（backbone）、颈部（neck）和头部（head）。骨干负责特征提取，包含卷积（Conv）、C2f（捷径）和空间金字塔池化（SPPF）模块。C2f模块较YOLOv5中的C3结构更轻量，增强了特征表达能力。SPPF模块则提升了对不同尺度特征的捕获能力。

在颈部部分，使用了特征金字塔网络（FPN）和路径聚合网络（PANet）实现多尺度特征融合，将浅层信息和深层信息有效结合。头部结构采用解耦设计，将分类和回归分开，避免任务之间的冲突，同时采用无锚机制（anchor-free）以更好检测不规则大小的目标。损失函数方面，YOLOv8使用二元交叉熵损失（binary cross-entropy）和方差焦点损失（varifocal loss），同时配合使用完整交并比（CIoU）损失以减少边界框重叠。

最新的YOLOv8改进集中于注意力机制、多尺度特征融合网络和回归损失的优化。例如，MHSA-YOLOv8引入了多头自注意力机制，轻量化版本结合双路径门控注意力和特征增强模块，亦有采用不对称特征金字塔网络（AFPN）、BiFormer块、WIoU等技术的变体。

在本文提出了BGF-YOLO模型，主要通过以下创新措施提升检测性能：

重新设计了YOLOv8的颈部，采用基于GFPN的结构化特征融合网络，以加强不同层级的特征融合能力。
引入BRA（Bi-level Routing Attention），结合动态和稀疏注意力机制，更好地关注重要特征，减少冗余。
增加第四个检测头，将尺度范围扩展到更大的对象，有助于检测不同大小的脑肿瘤，并优化回归损失以提升准确性。

综上，这些改进旨在增强模型的特征表达和尺度适应能力，从而提升脑肿瘤的检测效率和准确性。

2. 方法

在这里插入图片描述

BGF-YOLO的整体架构：

BGF-YOLO的“neck”部分比传统的YOLOv8更深、更复杂（“very deep and heavy”），而YOLOv8的neck部分较轻。这个“heavy”设计意味着它加强了多层特征融合能力，有助于捕获不同尺度和细节信息。
backbone（骨架）和head（检测头）部分沿用YOLOv8的设计，但“neck”进行了特殊优化。

2.1 增强的GFPN（Generalized Feature Pyramid Network）：

背景：在深度学习中，为了检测不同尺寸的目标（如各种大小的脑肿瘤），需要有效融合不同层次的特征信息。

FPN（特征金字塔网络）最早提出解决阶层特征融合的问题，帮助模型融合不同尺度的特征，从而提升检测多尺度目标的能力。
PANet（Path Aggregation Network）加强特征传播，促进信息的重复利用和特征的表达。
BiFPN（Bidirectional FPN）：在FPN基础上增加了自底向上路径，使特征融合更高效，可以同时利用低层和高层信息。
GFPN（Generalized-FPN）：基于“密集连接”和“皇后融合”策略（queen fusion），用串联（concat）操作替代相加，减少信息损失，提升融合效果。
AFPN（Adaptive Spatial Fusion）：采用自适应空间融合，从底层特征到更高级别的特征逐步融合，增强关键层特点，减轻不同目标之间信息冲突的问题。

在YOLOv5和YOLOv8中的应用区别：

两者都用FPN和PANet进行多尺度融合，但YOLOv8的“neck”用C2f（无shortcut）模块替换了YOLOv5中的C3模块，简化了结构。

具体的改造措施（模型优化）：

多路径融合强化：通过增强不同层之间的连接，提高多层特征的融合能力，这对脑肿瘤检测至关重要，因为肿瘤大小、形状、位置变化很大。
引入CSP（Cross Stage Partial DenseNet）：替代C2f模块，加入跳跃连接（skip connections）和稠密连接（dense connection），使模型可以在不同尺度间共享信息。
这让模型同时关注低层空间细节和高层语义信息，提高对多样肿瘤特征的表达能力和鲁棒性，尤其是在脑肿瘤尺寸和类型多变的情况下表现更优。

2.2 BRA（Bi-level Routing Attention）注意机制：

多尺度特征融合的挑战：在YOLOv8的“颈部”部分，不同网络层提取的特征图被融合，以提升多尺度目标检测性能。然而，这个融合层存在冗余信息的问题，即不同特征图中包含重复或无关的信息，从而影响检测准确性。

引入注意机制的目的：为了克服这个问题，作者考虑在特征融合过程中加入注意机制，这种机制可以根据特征的重要性进行加权，突出相关特征，抑制无关特征，从而提升模型性能。

现有的注意机制类型：文中提到五种具有潜力的注意机制：

SE（Squeeze-and-Excitation）：通道注意，用于调整每个通道的响应，以建模通道之间的依赖关系。
ECA（Efficient Channel Attention）：只关注局部通道交互，计算量较低。
RFA（Receptive-Field Attention） 和 BRA：空间注意机制，增强特征中的空间关系。
CBAM 和 CA：同时支持通道和空间的注意。

BRA的特点与优势：

是一种“动态、查询感知的稀疏注意机制”。
只关注每个“查询”对应的少量最相关的“键/值”，实现内容感知的稀疏匹配。
通过分区域（segmenting）和线性变换产生查询、键、值。
构建有向图（通过邻接矩阵）以定位不同区域之间的关系。
使用多头自注意力（multi-head self-attention）在区域间进行调度，重点关注脑部肿瘤区域。

具体的融合方法：

将BRA模块放置在卷积或上采样后，用于特征融合，增强模型对目标区域（如肿瘤部分）的关注。
通过“区域级关系”的匹配，减少无关区域的干扰，提取最相关的特征。
采用“二层路由优化”，引导模型更专注于MRI扫描中潜在的肿瘤区域，提升检测准确性。

总结作用：

利用BRA模块实现高效、多尺度的特征融合。
去除冗余信息，突出重点区域，提高对肿瘤等微妙特征的检测能力。
该方法唯一使用了BiFormer中的BRA模块，而没有将整个BiFormer集成到YOLOv8中。

2.3 增强检测头

原始YOLOv8的检测头：

具有三个检测头，分别对应不同的尺度：20×20、40×40 和 80×80。
这些尺度主要用于检测不同大小的目标，但对于脑肿瘤检测，特别是较大或多样化大小的肿瘤，原有的尺度不足以满足需求。

引入更大尺度的检测头：

增加一个新的检测头，尺寸为160×160，与特征融合网络的新结构相匹配。
这个“第四检测头”被加入到原有的80×80尺度检测头旁边。

功能和优势：

新的检测头融合了输入图像的浅层信息（来自C2f模块的shortcut信息），利用额外的特征融合网络增强特征信息。
这使得模型能够检测各种尺度的目标，特别是更大或不同尺度的肿瘤。

应用场景的好处：

不同大小的肿瘤具有不同的特征，增加检测头有助于模型能更准确地识别和定位这些不同尺度的肿瘤。
逐步检测（progressive detection）策略：模型可以先识别潜在区域，然后通过后续细化提高检测完全性和精确性，从而提升整体检测的鲁棒性和准确率。

3. 实验和结果

3.1 数据详情

数据集介绍：数据集名为Br35H，包含801张带有标注脑肿瘤的MRI图像。

数据集的划分：

训练集：500张图像，用于模型训练。
验证集：201张图像，用于调优模型参数和验证模型性能。
测试集：100张图像，用于最终的测试评估。

评估方式：所有的实验结果都是在测试集上进行测试得出的，也就是说，用于评估模型性能的指标（如精确率、平均精度等）都是基于测试集的表现。

3.2 实现细节

具体硬件如下：

CPU：Intel QR Xe（型号可能为Xeon系列）的一台铜；
CPU频率：2.50 GHz；
GPU：NVIDIA GeForce GTX 1060 6GB显卡。

所有的模型训练都采用了YOLOv8x的架构作为基础。关于训练参数（超参数）：

批量大小（batch size）：设为5；
训练轮数（epochs）：共120轮；
优化器：采用随机梯度下降（SGD），
初始学习率：0.01，
最终学习率：0.01（可能在训练过程中保持不变或有调整），
动量（momentum）：0.937。

3.3 结果

在这里插入图片描述

选择了各种竞争模型中表现最好的版本，并采用了与它们相同的评估指标。根据表1的结果，BGF-YOLO在以下几个方面比YOLOv8x模型有明显的性能提升：

精确率（Precision）提高了1.2%，
平均精度（mAP50）提高了4.7%，
mAP50:95（针对不同IoU阈值的平均精度指标）提高了0.7%。

此外，BGF-YOLO还优于其他几款先进的检测模型，包括YOLOv9-E、YOLOv10-X、RCS-YOLO和DAMO-YOLO-L*。它不仅超越了基本的YOLOv8模型，还优于采用GFPN结构的DAMO-YOLO以及速度快且高精度的RCS-YOLO。

3.4 消融实验

在这里插入图片描述

整体架构的消融分析：评估了四个不同的简化版BGF-YOLO模型，即分别去除不同的模块（BRA、GFPN、第四检测头、GIoU）。

结果显示：

BRA（Bi-level Routing Attention）：引入注意机制，显著提升模型性能。
GFPN（Generalized-FPN）：有效改进多尺度特征融合。
第四检测头：对准确率（特别是mAP50）影响最大，提升最明显。
GIoU（Generalized IoU）：作为回归损失之一，也对模型表现有贡献。
未使用GFPN（w/o GFPN）意味着继续用原始的YOLOv8 FPN-PANet结构。

多尺度特征融合结构的比较：

在这里插入图片描述

将BGF-YOLO中的GFPN替换为其他结构，如BiFPN和AFPN，得到的模型分别叫BBF-YOLO和BAF-YOLO。
结果表明，使用GFPN的模型在精确率（precision）、mAP50和mAP50:95上都优于使用BiFPN或AFPN的模型。

注意机制的分析：研究了多种注意力机制：SE（S）、ECA（E）、CBAM（C）、CA（A）、RFA（R）、BRA（B）。

在这里插入图片描述

BRA带来最大性能提升，显著优于其他注意力机制。
CBAM排名第二，但在某些指标（如精度）上略逊于BRA。
虽然ECA和CA在mAP50:95方面表现更高，但在mAP50方面，BRA优于ECA和CA。

回归损失函数的选择：比较不同的回归损失：GIoU、DIoU、EIoU、SIoU和WIoU v3。

在这里插入图片描述

结果显示：

原始的CIoU在YOLOv8中表现更鲁棒，尤其是mAP50指标。
DIoU与CIoU接近，有竞争力。
GIoU和EIoU在mAP50:95指标上表现更优，但在总体场景下，因考虑鲁棒性，选择CIoU作为回归损失。

4. 结论

本文提出了一种新的模型，叫做BGF-YOLO，它是在YOLOv8的基础上开发的，旨在更准确地检测MRI中的脑肿瘤。通过优化GFPN特征融合结构、引入BRA注意机制，以及添加一个新的检测头，这些改进大大增强了YOLOv8的目标检测能力。这些改进使模型可以在不同层次和更丰富尺度上进行加权特征融合，并生成高质量的锚框，具有动态调焦机制，从而提升检测性能。
此外，作者的BGF-YOLO模型在一系列的实验中，表现优于其他替代技术（如不同的特征融合方式、注意机制和回归损失方法）。最后，他们指出，BGF-YOLO已成为在脑肿瘤检测数据集Br35H上最先进的模型。