摘要:
基于 YOLO的物体检测器在自动脑肿瘤检测中表现出了非凡的准确性。在本文中,通过将双级路由注意力(BRA)、广义特征金字塔网络(GFPN)和第四检测头整合到 YOLOv8 中,开发了一种新颖的 BGF-YOLO 架构。BGF-YOLO包含注意机制来关注更加重要的特征,特征金字塔通过融合高级语义特征和空间细节来丰富特征表征。此外,我们研究了不同的注意力机制和特征融合、检测头架构对脑肿瘤检测准确性的影响。实验结果表明,与YOLOv8x相比,BGF-YOLO的mAP50绝对增加了4.7%,并且在脑肿瘤检测数据集Br35H上达到了最先进的结果。代码可在https://github.com/mkang315/BGF-YOLO上获取。
1、引言
在早期阶段检测出脑肿瘤可以带来更有效的治疗和更好的预后。因此,脑肿瘤检测是医学诊断的一个重要方面。磁共振成像 (MRI) 是可视化大脑和检测肿瘤的最佳成像测试。 You Only Look Once (YOLO) 系列已被证明可以准确检测脑肿瘤。Kang在脑肿瘤检测上提出了RCS-YOLO——一种基于通道混洗的重新参数化卷积的新型YOLO架构,并实现了准确性和速度之间的平衡。
YOLOv8架构主要由backbone和head部分组成,其中neck包含在head部分。主干部分用于特征提取,包含Conv、C2f(快捷方式)和空间金字塔池化快速(SPPF)模块。 Conv,即ConvBiSiLU(或CBS),SPPF与YOLOv5架构中的相同,其中Conv用于对输入图像进行卷积运算,辅助C2f(shortcut)进行特征提取SPPF 支持自适应大小的输出。与YOLOv5中的C3模块相比,C2f(shortcut)模块是一种轻量级的卷积结构。因此,通过跨层连接更多分支来丰富模型的梯度流。因此,启用了更重要的特征表示能力。 C2f(shortcut)模块增强了通过密集和残差结构表达特征的能力,它根据缩放系数通过拆分和连接操作来改变通道数,以降低计算复杂度和模型容量。主干部分末端的SPPF模块增加了灵敏度,捕捉图像中不同层次的特征信息。在颈部特征金字塔(FPN)和PANet被用来融合多尺度特征。FPN-PANet 结构和 C2f(无快捷方式)模块融合了主干三个阶段的不同尺度的特征图,将浅层信息聚合为深层特征。头部部分采用带有分类和回归(即定位)预测端的解耦头部结构,以缓解分类和回归任务之间的冲突,并采用无锚机制来改进对不规则高度和宽度的物体的检测。对于边界框分类,YOLOv8 采用二元交叉熵损失,而varifocal损失是一种替代选择。可以更好的处理类别不平衡的情况,提高检测准确率。对于边界框回归,YOLOv8采用分布焦点损失来克服类别不平衡和背景类别的问题,使网络能够快速聚焦于靠近物体的位置的分布。它还使用CIoU损失函数来减轻预测和真实框之间的重叠。
YOLOv8的最新改进都集中在注意力机制、多尺度特征融合网络和回归损失。多头自注意力机制被使用在MHSA-YOLOv8中。一个轻量化的YOLOv8被提出,通