YOLOv9 用于儿童手腕创伤 X 射线图像中的骨折检测

今天跟大家分享一篇关于YOLOv9的文章

摘要:

YOLO系列最新版本YOLOv9的推出,使其在各种场景中得到广泛应用。 本文首次将YOLOv9算法模型应用到计算机辅助诊断(CAD)的骨折检测任务中,以帮助放射科医生和外科医生解读X射线图像。 具体来说,本文在 GRAZPEDWRI-DX 数据集上训练模型,并使用数据增强技术扩展训练集以提高模型性能。 实验结果表明,与当前state-of-the-art(SOTA)模型的mAP 50-95相比,YOLOv9模型将值从42.16%提高到43.73%,提升了3.7%。 实现代码可在 https://github.com/RuiyangJu/YOLOv9-Fracture-Detection 上公开获取。

引言:

计算机辅助诊断 (CAD) 帮助放射科医生和外科医生等专家解读医学图像,包括磁共振成像 (MRI)、计算机断层扫描 (CT) 和 X 射线图像。 深度学习技术在医学图像中的应用[1-4]已经取得了越来越令人满意的结果,使其成为流行的研究热点,特别是在骨折检测方面[5-7]。 You Only Look Once (YOLO)系列[8-16]是实时目标检测任务的主要神经网络,广泛应用于断裂检测[17-19]。 儿童手腕骨折更为常见,GRAZPEDWRI-DX 数据集 [20] 提供了 20,327 张儿童手腕外伤的 X 射线图像,可用于骨折检测任务。 研究[21]首先使用YOLOv8[16]模型在此数据集上进行断裂检测。 由于注意力机制 [22-25] 在增强神经网络模型的性能方面具有出色的效果,Chien 等人。 通过将不同的注意力机制融入到 YOLOv8 模型中,实现了最先进的(SOTA)性能。 随着YOLOv9[26]在MS COCO 2017[27]基准数据集上取得了显着的模型性能,本文首先在GRAZPEDWRI-DX数据集上训练YOLOv9模型并获得了SOTA性能,如图1所示。 本文的主要贡献如下: 1.本文首次将YOLOv9应用到断裂检测任务中,证明该模型不仅在跨现实场景的实时目标检测方面具有优异的性能,而且 在医学图像识别方面取得了良好的效果。 2.本文采用YOLOv9算法解决X射线图像断裂检测中的信息丢失问题,旨在在低特征X射线图像的模型训练过程中保留更多信息,提高模型的性能。 3. YOLOv9模型在GRAZPEDWRIDX数据集上训练的mAP 50-95显着提升,达到SOTA水平。

相关工作

在目标检测领域当中,检测器通常采用单阶段或者两阶段的算法。与两阶段的目标检测器相比YOLO模型提供了在准确性和推理速度上面的平衡,使得其更加适合部署在移动计算平台上面对于医学图像的识别上面。Son等人,利用yolov4和unet作为辅助诊断工具来帮助牙医识别下颌骨折,而无需借助锥形束计算机断层扫描(CBCT)。Jeon等人采用YOLOv4[9]通过检测骨折并将其映射到3D重建骨图像上来帮助外科医生诊断创伤,通过红色掩模骨图像清晰显示骨折区域,提供清晰的显示 通过覆盖在 3D 骨图像上的红色掩模看到骨折区域。H等人在GRAZPEDWRIDX数据集[20]上采用YOLOv4[9]模型进行骨折检测,该数据集首次证明YOLO系列模型可以帮助放射科医生在X射线图像上更准确地预测儿童手腕损伤。Ahmed通过部署YOLOv5,YOLOv6,YOLOv7和YOLOv8模型来检测腕部证明了单阶段算法可以提高腕部疾病诊断的准确性。Warin等人利用YOLOv5[12]模型检测全景X射线图像中的下颌骨骨折,展示了YOLOv5模型在专家水平上识别下颌骨骨折的能力。Gaikwad等人应用YOLOv5[12]模型检测C1至C7椎骨的主要和次要骨折,准确率达到89%。Zou等人研究了全身的各种骨折形态,包括角形骨折、正形骨折、线形骨折和迷失角形骨折。他们将YOLOv7模型和注意力机制相融合,在FracAtlas数据集上面取得了卓越的性能。Samothai等人证明了YOLOX比YOLOR表现出更快的检测速度和更高的准确性,通过探测器头解耦、无锚、增强策略等方法检测断裂区域。他们还表明,YOLOX 即使在低特征 X 射线图像中也能定位骨折。Moon提出了基于YOLOX模型的计算机辅助面部骨折诊断(CA-FBFD)系统,有效减少了医生在面部CT扫描中诊断面部骨折的工作量,虽然YOLO系列模型在医学图像识别上面是一个热门的研究话题,但是没有人将YOLOv9用在骨折检测方面。

方法

神经网络通常面临着信息丢失的挑战,因为输入数据经历多层信息提取和空间变化,导致了原始信息的丢失。这个问题在X射线中尤其广泛,低特征在断裂检测任务非常困难。具体来说,在此类低特征图像上训练的模型往往表现不佳,而解决信息丢失问题可以大大提高模型预测的准确性。 为了解决这个问题,我们利用 YOLOv9 算法,该算法利用可编程梯度信息 (PGI) 和通用高效层聚合网络 (GELAN) 来更有效地提取关键特征。

可编程梯度信息(PGI)是一种辅助监督框架,旨在管理梯度信息在各个语义级别上的传播,以提高模型的检测能力。 PGI由三个主要部分组成:主分支、辅助可逆分支和多级辅助信息。 在推理过程中,它专门使用主分支来处理前向和反向传播。 随着网络变得更深,可能会出现信息瓶颈,导致损失函数无法产生有用的梯度。 在这种情况下,辅助可逆分支采用可逆功能来保持信息完整性并减少主分支中的信息丢失。 此外,多级辅助信息从深度监督机制上解决了误差累积的问题,通过引入不同级别的辅助信息来提高模型的学习能力。 值得注意的是,研究 [26] 强调了 PGI 在训练过程中保留信息的功效,特别是在特征有限的场景中。 这为YOLOv9模型在断裂检测任务中具有优异的性能提供了理论基础。

通用高效层聚合网络 (GELAN):为了增强模型训练中的信息集成和传播效率,YOLOv9引入了一种新颖的轻量级网络架构,称为广义高效层聚合网络(GELAN)。 GELAN集成了CSPNet[39]和ELAN[40]来有效聚合网络信息,减少传播中的信息丢失并增强层间信息交互。 该架构由于其较低的参数和计算复杂度,特别适合计算资源有限的环境中的断裂检测。

数据处理和增强:图 2 说明了本研究中进行的实验的流程图。 由于GRAZPEDWRI-DX[20]数据集的发布者没有提供预定义的训练集、验证集和测试集,因此我们在数据处理过程中随机分配70%给训练集,20%给验证集,10%给测试集。 此外,由于低特征 X 射线图像的亮度多样性有限,仅在这些图像上训练的模型可能无法很好地推广到其他环境中的 X 射线图像。 为了增强模型的鲁棒性,我们采用数据增强技术来扩展训练集。 具体来说,我们使用 OpenCV 库中的 addWeighted 函数微调 X 射线图像的对比度和亮度。

实验

数据集:GRAZPEDWRI-DX [20]是格拉茨医科大学提供的公共数据集,其中包含 20,327 张儿童手腕外伤的 X 射线图像。 这些 X 射线图像由格拉茨大学医院的儿科放射科医生团队于 2008 年至 2018 年收集。该数据集包含 6,091 名患者和 10,643 项研究,总共 74,459 个标记图像,代表 67,771 个标记对象。

实验设置:本文中的实验使用单个 NVIDIA GeForce RTX 3090 GPU,并使用带有 PyTorch 框架的 Python。 在训练我们的模型之前,我们采用了在 MS COCO 2017 [27] 数据集上预训练的 YOLOv9 模型权重。 在训练过程中,我们使用SGD[41]优化器训练模型,权重衰减率设置为5e-4,动量为0.937。 我们按照研究[21]将初始学习率设置为1e-2,epoch数设置为100。由于单个GPU的资源限制(24GB内存),采用16的批量大小来训练模型 。

实验结果:为了评估 YOLOv9 和其他 SOTA 模型在真实诊断场景中的性能,本研究比较了模型大小(参数和每秒浮点运算)、精度(F1 分数、50% 时的平均精度(mAP 50)、 平均精度从 50% 到 95% (mAP 50-95)) 以及推理时间。 人们普遍认为,使用较大的输入图像尺寸可以提高预测精度,但也需要更多的计算资源。 因此,我们针对不同场景进行了两次实验,输入图像大小为640和1024,结果如表1和表2所示。输入大小为640时,YOLOv9-C(紧凑型)和YOLOv9-E(扩展型) 证明 mAP 显着提高,同时保持合理的推理速度。 具体来说,YOLOv9-E 的 mAP 50-95 达到了 43.32%,比当前 SOTA 模型 YOLOv8+SA 达到的 41.49% 提高了 4.4%。 当输入图像尺寸为1024时,YOLOv9-E的mAP 50-95达到43.73%,也获得了SOTA性能。 但由于推理时间增加,更适合部署在计算资源较高的设备上。

结论:YOLO系列模型可以作为CAD辅助放射科医生和外科医生解读X射线图像。 然而,由于 X 射线图像的特征较低,以前的模型的预测往往不能令人满意。 本文首先介绍了YOLOv9在断裂检测中的应用,利用新提出的PGI和GELAN解决了模型训练过程中信息丢失的问题。 实验结果表明YOLOv9模型在GRAZPEDWRI-DX数据集上实现了SOTA性能,证明了该方法的有效性。

  • 22
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值