华西医院孙怀强教授团队新作:在5万多例多序列增强脑MRI图像上训练了一个影像基础大模型,并在三个下游任务(肿瘤检测,胶质瘤和脑膜瘤分类,胶质瘤IDH基因突变状态)评估了其性能。代码已开源,通过论文和代码,你可以学到大模型的训练,对抗性攻击,模型解释性等先进技术。
基本信息
- 标题: Medical image foundation models in assisting diagnosis of brain tumors: a pilot study
- 中文标题:医学影像基础模型在脑肿瘤辅助诊断中的应用:一项试点研究
- 发表年份: 2024年4月
- 期刊/会议: European Radiology
- 分区/IF: SCI 2区 / 5.9
- 作者: Mengyao Chen; Huaiqiang Sun (一作;通讯)
- 单位: 华西 放射科
- DOI: https://doi.org/10.1007/s00330-024-10728-1
- 开源代码: https://github.com/MAI-Lab-West-China-Hospital/LaMIM
摘要
目的:建立全脑多对比 MRI 自监督基础模型,并评估其在辅助诊断脑肿瘤方面的性能。
方法:在这项回顾性研究中,通过自监督学习,利用 57,621 个增强型头部磁共振成像扫描结果开发了基础模型,其辅助任务是交叉对比语境恢复,并采用了两种不同的内容遮罩方案(dropout schemes)。
在预训练基础模型的基础上构建了下游分类器,并针对脑肿瘤检测、鉴别和分子状态预测进行了微调。准确率、灵敏度、特异性和 ROC 曲线下面积(AUC)等指标用于评估性能。
结果:预训练的基础模型展示了从多对比全脑体积中提取有效表示的能力。具有预训练权重的最佳分类器在独立测试数据集上表现出94.9%、92.3%和80.4%的准确性,以及相应的AUC值分别为0.981、0.972和0.852,用于脑肿瘤检测、鉴别和分子状态预测。
具有预训练权重的分类器在准确性和AUC方面都比从头开始训练的卷积分类器高出约10%,在所有任务中表现出显著优势。
在正确预测的情况下,显著性区域主要集中在肿瘤周围。从两种遮罩方案衍生的分类器在脑肿瘤检测方面存在显著差异。
结论: 通过自我监督学习获得的基础模型在下游脑肿瘤相关任务中展示了可扩展性和可解释性,并有望扩展到具有弥散分布病灶的神经系统疾病。
临床相关性声明:我们提出的方法应用于胶质瘤关键分子状态的预测,有望改善治疗规划和患者预后。此外,我们开发的基础模型可以作为推动脑相关疾病诊断AI应用的基石。
章节速览
- Introduction
- Materials and methods
- 2.1 数据收集
- 2.2 数据预处理
- 2.3 自监督基础模型开发
- 2.4 下游分类器构建
- 2.5 模型鲁棒性
- 2.6 模型解释
- Results
- 3.1 自监督自动编码器在语境还原方面的表现
- 3.2 使用预训练权重的分类器在下游任务中的表现
- 3.3 模型鲁棒性
- Discussion
1. Introduction
脑胶质瘤是中枢神经系统最常见的原发性颅内肿瘤,其分子分型直接影响临床预后判断及治疗方案的选择。临床上多采用活检和手术切除获取标本进行分子病理检测,这种方法存在有创、耗时以及取样不足或误差等局限。
基于多模态磁共振图像无创获取分子分型的现有研究主要分为影像组学和深度学习。影像组学方法受人类定义表征能力有限及多中心成像设备和参数差异的影响,泛化能力差。
由专家注释的医学数据集很难大规模创建。自监督学习可以从临床丰富的无标签数据中挖掘出图像有用的特征信息。
最近提出的掩码自动编码器(mask autoencoder,MAE)在用于自然图像分类的自我监督特征提取方面证明了其有效性和可扩展性。
受这一新兴技术的启发,本研究旨在利用广泛的临床数据集开发一种类似于 MAE 的自监督学习框架。该框架用于生成基础模型,能够从覆盖整个大脑的多对比度 MRI 卷中提取全面的表征。随后,对基础模型进行微调,并在与脑肿瘤诊断相关的多个下游预测任务中进行评估。
2. Materials and methods
2.1 数据收集
- 基础模型数据集:检索了2015年1月至2022年12月期间,年龄在6至80岁之间的患者增强型头部MRI扫描图像。
- 下游任务数据集:2020年7月至2022年12月期间确诊为胶质瘤或脑膜瘤的患者数据。以及外部测试集来自来自公开可用的 TCIA 储存库的 TCGA-GBM 和 TCGA-LGG 脑胶质瘤集合的术前多模态 MRI 扫描。
2.2 数据预处理
- dicom图像转换为nii格式图像
- 使用已开发的脑磁共振影像数据自动筛选模型对nii图像进行自动分类,分类后再进行进一步的人工复核。
- 使用HD-BET工具去除头皮后将同一患者的不同模态图像按照T1,T1c,FLAIR,T2顺序融合成4通道3D图像
2.3 自监督基础模型开发
模型骨干为基于视觉变换器的自动编码器(ViT Aotoencoder,在 PyTorch 和 MONAI 中实现),其编码器有 16 个多头注意力块,每个块有 32 个注意力头。采用交叉对比语境恢复作为辅助任务(pretext task)基于大量无标签数据集进行自监督训练(图1a)。通过最小化两个重建图像之间距离(L_contrast)以及最大化重建图像与原始图像的相似度(L_recon)来实现自监督训练。
2.4 下游分类器构建
在预训练的编码器上附加了一个包含 1 个自适应平均池化层和 3 个全连接(FC)层的分类模块,以形成下游任务的分类器(图1b)。为了进行性能比较,只使用任务数据从头开始训练了其他卷积神经网络(CNN)分类器,包括 ResNet18、DenseNet121 和 SENet154。
为了研究预训练基础模型的可扩展性,进行了三个由易到难的二元分类任务:
- 任务 1:预测是否存在脑肿瘤;
- 任务 2:预测肿瘤是胶质瘤还是脑膜瘤;
- 任务 3:预测胶质瘤中 IDH 基因的突变状态。
2.5 模型鲁棒性
通过在相应测试集中引入不同的扰动(包括不同强度的梯度下降投影(PGD)攻击、BiasField、Gibbs Noise和Rician Noise)构建对抗样本并比较分析分类器在下游任务中因扰动导致的测试准确率下降程度评估分类器的鲁棒性。
2.6 模型解释
使用遮挡敏感性分析方法(occlusion sensitivity)来有效解释模型预测。这种方法使用像素为0的掩模替换输入图像中特定区域,同时记录特定类别相对于掩膜位置的概率分数变化,以生成注意力图。
预训练分类器在验证集和测试集上的一致性能表明不存在过度拟合。注意力图的焦点也主要聚集在肿瘤周围,表明分类过程是由预期区域引导的。即使在第三个任务中,任务标签无法直接从放射科医生进行的目视检查中推导出来,预训练的分类器仍然能够达到 80% 的准确率,并且显着图中的焦点区域与肿瘤一致,证实了该模型提取高度抽象表示的能力。
3. Results
3.1 自监督自动编码器在语境还原方面的表现
使用小掩膜块训练的预训练模型在比较重建图像和相应的原始图像时,得出的平均 SSIM 值和平均 PSNR 值分别为 0.807 和 21.523。相反,使用大掩膜块训练的模型则表现出更好的指标,平均 SSIM 值达到 0.857,平均 PSNR 值达到 23.207。
3.2 使用预训练权重的分类器在下游任务中的表现
3.3 模型鲁棒性
其中,PGD 攻击的影响非常明显,随着攻击强度的增加,所有模型的准确率都显著下降。与 ViT-4/16 相比,CNN 分类器的准确率下降更为明显。同样,在BiasField和Gibbs Noise等扰动下,与 ViT-4/16 相比,CNN 分类器的准确率明显下降。然而,在Rician Noise扰动下,CNN 分类器的准确率下降幅度略低于我们的分类器。这些结果表明,我们的模型与 CNN 分类器具有相同或更高的鲁棒性。
4. Discussion
在这项工作中,我们引入了一种自我监督的基础模型,该模型在包含 57,621 个 4D 脑 MRI 体积的大量数据集上进行了预训练,旨在将其部署到涉及脑肿瘤识别和表征的下游任务。
利用 ViT 架构的自监督训练衍生模型可以提取复杂的语义特征,与 CNN 分类器相比,分类精度更高。在最初的两个明显可辨别的任务中,分类器的准确率超过了 90%,与从头开始训练的 CNN 分类器相比,提高了超过 10% 。
以上就是这篇文章的分享。如果您有任何问题,可直接向通讯作者发邮件,孙怀强教授邮箱。 如果您对论文提出的方法感兴趣,欢迎访问官方代码库。如果您从这篇论文中获益,欢迎[引用此论文]
Chen, M., Zhang, M., Yin, L. et al. Medical image foundation models in assisting diagnosis of brain tumors: a pilot study. Eur Radiol (2024). https://doi.org/10.1007/s00330-024-10728-1