用于常规临床MRI检查的准确大脑年龄模型

卷积神经网络(CNN)可以从结构MRI大脑扫描中准确预测健康个体的年龄。潜在地,这些模型可以在常规临床检查中应用,以检测健康老化的偏差,包括早期神经退行性改变。这可能对患者护理、药物开发和优化MRI数据收集具有重要意义。然而,现有的大脑年龄模型通常针对不是常规检查的扫描进行优化(例如,体积T1加权扫描),泛化能力差(例如,对来自不同扫描仪供应商和医院等的数据),或依赖计算密集型的预处理步骤,限制了实时临床效用。

     在这里,我们试图开发一个适用于常规临床头部MRI检查的大脑年龄框架。使用基于深度学习的神经放射学报告分类器,我们从两家大型英国医院生成了23,302个“年龄放射学正常”的头部MRI检查的数据集,用于模型训练和测试(年龄范围= 18-95岁),并展示了快速(<5秒)、准确(平均绝对误差[MAE] <4岁)的年龄预测,从临床级别、最小处理的轴向T2加权和轴向扩散加权扫描,具有医院和扫描仪供应商之间的泛化能力(Δ MAE <1岁)。这些大脑年龄预测的临床相关性是通过使用228名患者测试的,他们的MRI由神经放射科医师独立报告为“年龄过度萎缩”。这些患者的大脑预测年龄系统地高于年龄(平均预测年龄差异= +5.89岁,“年龄放射学正常”平均预测年龄差异= +0.05岁,p <0.0001)。

     我们的大脑年龄框架展示了作为常规医院检查期间的筛查工具的可行性,以实时自动检测外观较老的大脑,具有临床决策和优化患者路径的相关性。本文发表在NeuroImage杂志。(可添加微信号siyingyxf18983979082获取原文,另思影提供免费文献下载服务,如需要也可添加此微信号入群,原文也会在群里发布)。

关键词:大脑年龄、深度学习、卷积神经网络、大脑预测年龄差异、T2加权、扩散加权

1.引言 

     卷积神经网络(CNN)可以从结构MRI大脑扫描中准确预测健康个体的年龄。当应用于独立样本时,个体的大脑预测年龄与其实际年龄之间的偏差 - 所谓的“大脑预测年龄差异”(brain-PAD),也称为大脑年龄差距或差值 - 可用于量化健康老化的偏差(Cole和Franke,2017b)。拥有一个更接近健康老年人的大脑(即,正大脑-PAD)与许多神经精神疾病有关,包括阿尔茨海默病(Franke和Gaser,2012)、轻度认知障碍(Gaser等人,2013)、精神分裂症(Koutsouleris等人,2014)和癫痫(Pardoe等人,2017);正大脑-PAD还与创伤性脑损伤后的认知障碍(Cole等人,2015)、随后痴呆的增加风险(Biondo等人,2020)和更高的死亡风险(Cole等人,2018a)有关。这些发现支持将MRI衍生的大脑年龄测量用作筛查工具(有机会或其他方式),以识别健康状况较差的高风险人群。

     潜在地,大脑年龄可以在常规临床检查中预测,以检测可能代表早期神经退行性改变的健康老化的偏差。这反过来可以通过加快护理(包括可用的干预)来改善患者路径,并可能通过改善临床试验招募来加速疾病修饰药物的开发。大脑年龄还可以可行地指导自适应MRI序列采集(Cole等人,2018b),使外观较老的大脑的患者能够在扫描仪中进行额外的、更有针对性的成像(例如,“痴呆协议”)。然而,迄今为止,几个关键挑战阻碍了临床采用:

      1) 以前的大脑年龄模型主要使用高分辨率体积T1加权扫描,具有各向同性或近似各向同性体素,用于大脑年龄预测(Lemaitre等人,2012)(Franke等人,2010)(Franke和Gaser,2012)(Gaser等人,2013)(Koutsouleris等人,2014)(Cole等人,2017a)(Jónsson等人,2019)。然而,这些扫描通常不是常规临床检查的一部分,因为它们需要花费大量时间来获取。相反,各向异性(例如,低轴向分辨率)T2加权和扩散加权图像要常见得多(ACR,2019)(图1)。

图片

图1. 大脑年龄预测的候选结构MRI序列比较。

以前的研究主要使用研究级体积T1加权扫描(a)进行大脑年龄预测。然而,这些扫描通常不是常规医院头部MRI检查的一部分;相反,通常获取轴向T2加权(b)和轴向扩散加权(c)扫描。

     2).大多数大脑年龄模型已经使用从精心策划的开放访问研究数据库(例如,OASIS、UK Biobank、IXI、Cam-CAN)获得的扫描进行训练和评估,这些数据库遵循精确的成像协议和参与者纳入标准(Peterson等人,2010)。相比之下,医院扫描更加异质化,不同站点之间的扫描仪供应商、成像协议和患者人群的变化可能导致在现实世界的临床环境中应用时模型性能较差(Hosny等人,2018)(Kocac等人,2020)(Futoma等人,2020)。

     3).当前最先进的大脑年龄框架通常依赖于计算密集型的预处理,例如偏置场校正、颅骨剥离和空间标准化,这限制了实时临床效用并引入了额外的建模假设。

      解决方案是直接在“原始”(即最小预处理、图像空间)医院头部MRI扫描上训练大脑年龄模型,从而确保模型是在来自各种扫描仪供应商和采集协议的数据上进行训练,这些数据来自临床代表性人群。然而,识别具有正常扫描的足够大的深度学习训练队列是具有挑战性的,因为存档的医院图像很少存储伴随分类标签(即“年龄放射学正常”或“年龄放射学异常”)。然而,近年来,自然语言处理(NLP)的突破使得从自由文本放射学报告中获取准确的放射学标签成为可能(Vaswani等人,2017)(Devlin等人,2019)(Wood等人,2021b)。这反过来使得根据这些标签自动对大型医院头部MRI检查数据库进行分组成为可能,从而促进了大规模计算机视觉模型的开发(Wood等人,2021a)。

      本研究的目的是基于这些突破并开发一个适用于常规临床头部MRI检查的大脑年龄框架。我们假设在临床代表性数据上的大规模训练将产生对不同医院之间的扫描仪供应商、成像协议和患者人群的变化具有鲁棒性的泛化模型。我们通过使用每个参与医院的可用数据的不同子集进行训练和测试来检查模型的泛化能力。在另一个实验中,我们通过使用每个扫描仪供应商的可用数据的不同子集进行训练和测试来检查泛化能力。我们还假设大规模训练将消除对诸如颅骨剥离和空间配准等预处理步骤的需要,因为如果有足够的训练数据,CNN应该学会专注于大脑年龄预测相关的特征(即,大脑实质)并忽略不相关的特征,例如颅外组织和绝对图像位置(LeCun等人,2015);我们试图通过解释方法来验证这一点。最后,我们假设我们的大脑年龄预测的偏差可以用于在常规医院检查中检测萎缩。我们在放射科医师在常规报告期间独立描述为“年龄过度萎缩”的患者的扫描上测试了我们的模型;这样,我们能够根据专家放射学报告评估大脑年龄预测。

       我们主要关注从轴向T2加权扫描的大脑年龄预测,因为这一序列在我们的英国NHS数据集中的>90%的检查中执行。这与美国各地所见大致相似(ACR,2019)。下一个最常见的序列是轴向扩散加权扫描,在约50%的检查中执行;因此,作为次要目标,我们调查了使用轴向扩散加权扫描进行大脑年龄预测。更先进的序列(例如T1加权对比增强和磁敏感加权扫描以及体积扫描)在不到10%的检查中获得,因此不在当前研究的范围之内。

2.材料和方法

2.1. 数据集 

     所有数据均已去标识化。英国国家卫生研究局和研究伦理委员会批准了这项回顾性研究(IRAS ID 235,658,REC ID 18/YH/0458)。

2.1.1. 医院头部MRI数据集 

      在2008年至2019年期间,在国王学院医院NHS基金会信托(KCH)和盖伊和圣托马斯NHS基金会信托(GSTT)进行的所有81,936名成人(≥18岁)头部MRI检查均为本研究所获得。MRI扫描是在Signa 1.5 T HDX(通用电气医疗保健,芝加哥,美国)、Aera 1.5 T(西门子,埃尔兰根,德国)、Ingenia 1.5 T(飞利浦医疗保健,埃因霍温,荷兰)或Skyra 3 T(西门子,埃尔兰根,德国)扫描仪上执行的。由专家神经放射科医师(英国顾问级别;美国主治医师相当)生成的相应放射学报告的文本从计算机化放射学信息系统(CRIS)(医疗软件系统,曼斯菲尔德,英国)中提取。这些报告大部分是非结构化的,通常包括5-10句图像解释,以及关于患者的临床病史和对转诊医生的推荐行动的评论。确定了一部分被视为“年龄放射学正常”的检查(第2.1.1.2节),并包括用于模型训练和测试。还确定了一部分报告为“年龄过度萎缩”的检查(第2.1.1.3节),并包括用于额外的模型测试。

2.1.1.1. 大脑年龄模型开发的“年龄正常”队列识别 

      使用基于transformer的神经放射学报告分类器(Wood等人,2020a)(Wood等人,2021b)执行“年龄放射学正常”队列识别。该模型使用来自KCH的5000份神经放射学报告的数据集进行训练和测试,这些报告已由5名专家神经放射科医师(英国顾问级别;美国主治医师相当)手动标记为“年龄放射学正常”或“年龄放射学异常”,并遵循全面的预定标准(Wood等人,2020b)(Wood等人,2021b)。该模型在500份手动注释的KCH放射学报告的保留集上实现了近乎完美的分类性能(AUC = 0.991),并推广到来自GSTT的外部保留测试集的500份报告(AUC = 0.990,ΔAUC = 0.001)。有关此模型开发的更多信息,请参见(Wood等人,2020a)(Wood等人,2020b)(Wood等人,2021b)。

      经过验证后,该模型用于对包括轴向T2加权扫描的KCH和GSTT的所有75,778次检查进行分类(图2);总共识别了23,302次检查为“年龄放射学正常”,并包括用于大脑年龄模型的训练和测试(男/女 = 10,711/ 12,591,平均年龄 = 43.5 ± 15.3,年龄范围 = 18-95)(表1)。附录A提供了更多数据集信息。

图片

图2. 流程图显示了用于训练、验证和测试我们的大脑年龄模型的数据集。

KCH(顶部),GSTT(底部)。为确保训练和测试集反映了常规临床实践中检查的异质性,没有根据图像质量排除任何报告的检查。

表1. 报告为“年龄放射学正常”的扫描数据集,用于大脑年龄模型开发。

图片

2.1.1.2. “年龄过度萎缩”数据集识别 

      使用(Wood等人,2021b)中描述的专门放射学报告分类器识别了报告为“年龄过度萎缩”的检查的子集(附录B中的图B1,表B1)。从较大的52,476个“年龄放射学异常”的检查中,使用“年龄过度萎缩”与“无年龄过度萎缩”分类器识别了候选检查;然后将这些检查传递给六个附加分类器“肿块”与“无肿块”、“中度或重度小血管疾病”与“无或轻度小血管疾病”、“血管异常”与“无血管异常”、“中风”与“无中风”、“白质炎症”与“无白质炎症”、“既往脑损伤”与“无既往脑损伤”),以排除具有这些常见病理的患者。然后两名神经放射科医师审查了由此产生的281次检查的放射学报告,以排除罕见的异常,并确定了228次描述过度萎缩是唯一异常发现的检查(评审者一致性= 100%;Fleiss的kappa = 1)(男/女= 127/101,平均年龄= 53.1±14.9,年龄范围= 19-88)。然后将这些检查的轴向T2加权扫描包括用于模型测试(图2)。重要的是,该数据集具有临床代表性,包括具有微妙(例如,由报告放射科医师描述为“年龄略过度”或类似)以及更明显(例如,由报告放射科医师描述为“年龄明显过度”或类似)的神经退行性疾病的患者。

2.1.2. 外部测试数据集

      为了进一步测试我们的模型,并使模型性能与先前和未来的研究直接比较,我们获得了来自信息从图像提取(IXI)健康受试者数据集的所有轴向T2加权扫描(n = 563,男/女= 250/313,平均年龄= 48.6±16.5岁,年龄范围= 20-86岁)。这些扫描是在2005年至2008年间在伦敦的三个不同机构之间获取的(哈默史密斯医院,使用Phillips 3T系统;盖伊医院,使用Phillips 1.5T系统;精神病学研究所,使用GE 1.5T系统),可以从https://brain-development.org/ixi-dataset/ 下载。

2.1.3. 用于T1加权和T2加权大脑年龄比较的研究检查数据集 

      由于我们的医院数据集中包含的“年龄放射学正常”的检查中,获取体积T1加权扫描的检查很少,因此需要一个单独的数据集来促进体积T1加权和轴向T2加权大脑年龄预测之间的公平比较。为此,我们获得了2013年至2019年间在伦敦国王学院精神病学、心理学和神经科学研究所进行的所有健康研究志愿者检查。我们确定了一个“年龄正常”的子集,其中2387次检查可用轴向T2加权扫描和体积T1加权扫描(平均年龄= 32.8岁± 12.3岁,年龄范围= 18-87岁),并将其包括用于额外的大脑年龄模型训练和测试。这些MRI扫描是在Signa 3T Discovery MR750(通用电气医疗保健)上执行的。

2.2. 神经影像处理 

      存储为数字成像和通信医学(DICOM)文件的任意分辨率和尺寸的轴向T2加权或轴向扩散加权扫描被转换为NIfTI格式,重新采样为常见体素大小和尺寸(1mm^3),然后裁剪或填充到常见阵列大小(180毫米x 180毫米x 180毫米);由于CNN需要固定大小的图像作为输入,所以这个最后一步是必要的。通过减去图像均值并除以图像标准差来对每个图像的强度进行归一化。未执行空间配准、偏置场校正或去颅骨剥离。所有预处理都是使用开放访问的基于python的库进行的:pydicom(Mason等人,2020)用于加载DICOM文件;dcm2niix(Li等人,2016)用于将DICOM文件转换为NifTI格式;NiBabel(Brett等人,2020)和numpy(Harris等人,2020)用于加载和操作NifTI文件;Project MONAI(MONAI,2020)用于重新采样、调整大小和归一化每个图像。

      为了比较有和没有颅骨剥离的大脑年龄预测,使用HD-BET(Isensee等人,2019),一种基于深度学习的PyTorch包,从GSTT的所有轴向T2加权扫描中(扫描数= 13,806)生成了一个去除非大脑组织的颅骨剥离扫描的单独数据集。

2.3. 大脑年龄建模方法 

    我们的大脑年龄模型基于“DenseNet121”架构(Huang等人,2017)。DenseNet是流行的残差网络(“ResNet”)(He等人,2016)的泛化,其中包括内部神经元层之间的快捷或“跳过”连接,以克服“消失梯度”问题(Pascanu等人,2013),即深层网络中的早期层无法“学习”。我们选择使用“开箱即用”的标准DenseNet121配置,而不是设计自定义架构,以确保我们的框架的可重复性和透明度。具体来说,我们的网络由64个卷积滤波器的初始块(内核大小= [7×7×7],步幅= 2)和“最大池化”层(内核大小= [3×3×3],步幅= 3)组成,然后是四个“密集连接”的卷积块。每个密集块由交替的点卷积(内核大小= [1×1×1])和体积卷积(内核大小= [3×3×3])组成,在四个块中分别重复6、12、24和16次。每个密集块之间都有“过渡层”,由点卷积(内核大小= [1×1×1])和平均池化层(内核大小= [2×2×2],步幅= 2)组成。对第4个密集块的输出应用全局平均池化,得到1024维特征向量,该向量由全连接层转换为患者年龄的预测附录C中的图C1)。

图片

图C1展示了用于大脑年龄预测的DenseNet121架构。同时还显示了网络的每个内部层的输出大小,对于大小为(120 x 120 x 120)的输入图像。

编者注:DenseNet(稠密连接网络)是一种流行的深度学习架构,特别适用于图像分类和识别任务。DenseNet的关键特性是其层与层之间的稠密连接。在传统的卷积神经网络(CNN)中,每一层的输出只传递给下一层。相比之下,DenseNet中的每一层都直接连接到之后的所有层,这意味着每一层都接收到前面所有层的特征图作为输入。

     这种稠密连接的结构有助于解决梯度消失问题,提高了训练的效率,并有助于网络学习更丰富的特征表示。DenseNet121是DenseNet家族中的一个特定版本,其中121表示网络中的层数。

     在本研究中,DenseNet121可以用于捕捉大脑MRI扫描中与年龄相关的复杂模式和特征。通过分析不同层的输出大小,可以更好地理解网络是如何逐渐将原始图像数据转化为最终的年龄预测的。)

    我们的DenseNet大脑年龄模型改编自Project MONAI上的实现,并且所有建模都是使用两个NVIDIA RTX 2080 11 GB图形处理单元(GPU)在PyTorch 1.7.1(Paszke等人,2019)下执行的。Adam优化器(Kingma和Ba,2015)用于训练期间更新模型权重,学习率最初设置为1e-4,并在每5个没有验证损失改善的时期后减少2倍(即学习率调度)。对于所有实验,数据分为训练(65%)、验证(15%)和测试(20%)集。这种分割是在患者级别完成的,以防止“数据泄漏”。对于每个数据分割,每个时期后保存模型检查点,并使用验证损失最低的模型进行测试。使用平均绝对误差(MAE)和皮尔逊相关性来量化模型性能。通过对每个模型使用不同的随机生成的训练/验证/测试分割重复此过程5次来生成置信区间。配对t检验用于测试原始和去颅骨剥离模型的计算时间差异的统计显著性。独立样本t检验用于测试“放射学正常年龄”和“年龄过度萎缩”患者之间大脑-PAD差异的统计显著性。“校正配对t检验”(Nadeau和Bengio,2003)用于测试原始和去颅骨剥离模型之间以及使用不同MRI序列的模型之间的大脑年龄预测差异的统计显著性。可以在https://github.com/MIDIconsortium/BrainAge上找到脚本,以便读者使用自己的扫描运行我们训练的大脑年龄模型。

2.4. 模型可解释性 

      为了仔细审查模型预测,我们执行了指导反向传播(Springenberg等人,2015)和遮挡灵敏度分析(Zeiler和Fergus,2014)。简要地说,指导反向传播的工作原理是计算模型预测的导数,并将此信号“反向传播”到输入图像。通过这种方式,指导反向传播突出显示了图像区域,如果稍微改变,将改变模型的预测。相反,遮挡灵敏度分析涉及在图像中“遮挡”一个(例如,立方体)区域,并将“遮挡”的图像传递给训练有素的模型。如果遮挡区域包含与大脑年龄预测相关的特征,则模型的输出可能与未遮挡图像生成的输出不同。通过在图像的不同位置重复这个遮挡过程,可以生成一个“热图”,显示最能影响模型预测的图像区域。对于我们的实验,我们将遮挡值设置为0(在强度标准化后对应于平均图像值),遮挡大小设置为5×5×5,以及“步幅”(即用于生成后续遮挡的步长)设置为3;这些值在热图分辨率和计算时间之间达到了折衷。

目镜式功能磁共振刺激系统介绍

3.结果 

3.1. 轴向T2加权大脑年龄预测 

      使用从两家医院汇集的原始、临床级轴向T2加权扫描,实现了准确的大脑年龄预测(MAE = 2.97年,95% CI [2.94, 3.0],皮尔逊相关系数,r = 0.972 [0.970, 0.974])(n训练= 15,146,n测试= 4661)(图3a)。其他T2加权模型在站点之间(图3b-d)和扫描仪供应商之间(图4)(Δ MAE < 1.0年)表现良好。

图片

图3. 使用临床级轴向T2加权MRI扫描进行大脑年龄预测。

     a) 当使用来自KCH和GSTT的汇集扫描进行训练和测试时,观察到最高的准确性(n训练= 15,146,n测试= 4661,MAE = 2.97年,95% CI [2.94, 3.0],r = 0.972 [0.970, 0.974])。

     b) 当在GSTT的扫描上训练时,该模型推广到KCH的扫描(MAE = 3.86年[3.82, 3.90],r = 0.954 [0.951, 0.957],Δ MAE = 0.81年)。

     c) 当在KCH的扫描上训练时,该模型推广到GSTT的扫描(MAE = 3.46年[3.41, 3.51],r = 0.962 [0.959, 0.965],Δ MAE = 0.34年)。

     d) 还观察到对IXI数据集扫描的推广性(MAE = 3.75年[3.70, 3.80],r = 0.961 [0.958, 0.964],Δ MAE = 0.63年)。

图片

图4. 扫描供应商之间大脑年龄预测的通用性。

      上图 - 当在GE扫描仪上训练时,该模型推广到在Siemens扫描仪上获得的扫描(MAE = 3.63年,95% CI [3.58, 3.68],r = 0.953 [0.948, 0.958])和Philips扫描仪上获得的扫描(MAE = 3.97年[3.93, 4.01],r = 0.949 [0.945, 0.953])。

      下图 - 当在Siemens扫描仪上训练时,该模型推广到在GE扫描仪上获得的扫描(MAE = 3.85年[3.81, 3.89],r = 0.954 [0.951, 0.957])和Philips扫描仪上获得的扫描(MAE = 3.96年[3.92, 4.00],r = 0.952 [0.948, 0.956])。由于这些扫描的数量较少(n = 923),因此未在Philips扫描仪上进行训练(见图5a-b)。

       通过使用不同的训练数据样本大小训练其他模型,我们观察到我们的大脑年龄框架正在渐进最优的数据范围内运行(图5a-b);换句话说,通过进一步增加训练数据集的大小,只能期望微小的改进。我们观察到大脑年龄预测中只有极小的“偏差”(de Lange和Cole,2020)(即年轻和年长受试者中年龄的系统高估和低估)(大脑PAD和年龄之间的皮尔逊相关性= -0.18)(图5c)。

图片

图5. 数据集大小消融研究和大脑年龄“预测偏差”分析。

a) 测试集MAE作为训练数据集大小的函数;在2000 - 12,000扫描之间观察到快速改进(MAE减小),之后只看到适度改进。

b) 测试集皮尔逊相关性作为训练数据集大小的函数;观察到与MAE相似的关系。

c) 观察到大脑年龄预测中的最小“偏差”(大脑PAD和年龄之间的皮尔逊相关性= -0.18)。

3.2. 去颅骨与“原始”大脑年龄预测 

     观察到有和没有去颅骨的准确大脑年龄预测(原始MAE = 3.05年[3.01, 3.09],去颅骨MAE = 3.65年[3.60, 3.70],n训练 = 8974,n测试 = 2761)。性能差异显著(p = 0.0002)。引导反向传播表明,两个模型都集中在大脑年龄预测的相似区域(整个测试集中原始和去颅显著性图之间的皮尔逊相关性≥0.7);这些主要似乎与脑脊液空间有关,例如侧脑室(图6),与使用遮挡敏感性分析得出的结果一致(图E1,附录E)。使用原始扫描的计算时间明显更快(预处理+预测时间= 4.6±0.8秒),与去颅骨扫描相比(预处理+预测时间= 48.9±3.2秒)(p <0.0001)。

图片

图 6. 引导反向传播分析以审查影响模型预测的大脑区域。

      显示了测试集中的六个代表性受试者(a-f);在每个面板中,显示了该受试者的轴向T2加权扫描(左)和相应的显著性图(中),以及整个测试集(n = 2761)的相同切片的聚合显著性图(右),对于原始(顶部)和去颅骨(底部)模型。从视觉上看,原始和去颅骨模型似乎在预测年龄时关注相似的区域,这些区域主要似乎与脑脊液空间有关。通过聚合显著性图之间的高皮尔逊相关性(r ≥ 0.7)来定量确认这一点。

第3.1节和3.2节的所有结果都在表2中总结:

表2. 使用临床级轴向T2加权MRI扫描的大脑年龄结果,包括医院网络和扫描仪供应商之间的通用性,以及有和无颅骨剥离的模型性能比较。

图片

      请注意,由于IXI包含从Guy's医院获得的一些数据,因此没有在GSTT上进行培训并在IXI上进行测试。这确保了IXI数据集是一个真正的外部数据集。

3.3. 使用报告为“年龄过度萎缩”的扫描进行大脑年龄预测 

     接下来,我们使用从两个站点汇集的扫描训练的轴向T2加权模型(n训练= 15,146)测试了报告为“年龄过度萎缩”的228名患者。这些患者的大脑预测年龄系统地高于实际年龄(“年龄过度萎缩”平均大脑PAD = +5.89年[5.21, 6.57],“放射学正常年龄”平均大脑PAD = +0.05年[−0.04, 0.14])(p <0.0001)(图7)。“年龄过度萎缩”测试集的受试者的可视化,包括模型预测和显著性图,提供在附录F中。

图片

图7. 我们在KCH和GSTT的扫描上训练的轴向T2加权模型系统地预测了这两个医院网络报告为“年龄过度萎缩”的患者的年龄高于实际年龄。

左图:放射学正常年龄(蓝色)和年龄过度萎缩(红色)患者的大脑年龄预测散点图。

右图:通过从预测年龄中减去实际年龄生成的“大脑预测年龄差异”(brain-PAD)的直方图,用于放射学正常年龄(蓝色)和年龄过度萎缩(红色)患者。虚线表示平均brain-PAD;还提供了95%置信区间。

3.4. 与其他MRI序列的性能比较 

3.4.1. 轴向扩散加权扫描 

     使用KCH和GSTT的检查子集,其中包括轴向T2加权扫描和轴向扩散加权扫描,进行了额外的模型训练(表3)。使用从两个站点汇集的原始、临床级轴向扩散加权(DWI)扫描进行训练和测试时,实现了准确的大脑年龄预测(MAE = 3.98年[3.93, 4.03],r = 0.944 [0.938, 0.950],n训练= 7409,n测试= 2280)(图8),尽管这不如仅从同一检查子集的轴向T2加权图像上训练和测试的模型准确(MAE = 3.32年[3.28, 3.36],r = 0.964 [0.961, 0.967])(p <0.0001)。将T2加权和扩散加权模型的预测平均不会对轴向T2加权预测单独产生统计学显著改善(整体MAE = 3.31年[3.27, 3.35],r = 0.964 [0.960, 0.968],Δ MAE = −0.01年,p = 0.41)。我们观察到这些MRI模式之间的通用性较差;将扩散加权模型应用于T2加权扫描时,观察到性能大幅下降(Δ MAE = 6.51年)(图8a)。同样,将T2加权模型应用于扩散加权扫描时,观察到大幅下降(Δ MAE = 11.52年)(图8b)。

表3. 使用轴向T2加权和轴向扩散加权扫描进行大脑年龄建模的比较,包括这些模式之间的通用性。

图片

图片

图8. (a) 使用临床级轴向扩散加权扫描实现了准确的大脑年龄预测(MAE = 3.98年,r = 0.94),尽管这不如在同一检查子集上训练和测试的轴向T2加权模型(b)准确(p <0.0001)。观察到模式之间的通用性较差(Δ MAE > 6年)。

3.4.2. 体积T1加权扫描 

     为了便于直接比较轴向T2加权和体积T1加权大脑年龄预测,我们在包括两个序列的2387个研究检查的单独数据集上训练和验证了额外的模型(平均年龄= 32.8岁± 12.3岁,年龄范围= 18 – 87岁)(图9,表4)。由于在我们的机构中,这些序列在常规检查期间很少一起获取,因此需要单独的数据集。该数据集上的轴向T2加权模型性能(MAE = 3.83年[3.69, 3.97],r = 0.950 [0.943, 0.957])与预处理的体积T1加权模型(MAE = 3.86年[3.67, 4.05],r = 0.949 [0.940, 0.958],p = 0.43)相当,并优于原始体积T1加权模型(MAE = 4.86年[4.64, 5.08],r = 0.908 [0.900, 0.916])(p = 0.002)。观察到这些MRI模式之间的通用性较差(Δ MAE > 7年)。值得注意的是,将预处理的体积T1加权和轴向T2加权模型的预测平均的“整体”模型胜过每个单一序列模型(MAE = 3.35年[3.20, 3.50],r = 0.960 [0.952, 0.968],p = 0.02),这表明这些序列提供了与大脑年龄预测相关的补充信息。

图片

图9. 使用包括两个序列的研究检查的数据集,比较体积T1加权和轴向T2加权大脑年龄预测。

    轴向T2加权大脑年龄预测(MAE = 3.83年,95% CI [3.69, 3.97],r = 0.950 [0.943, 0.957])与使用预处理的体积T1加权扫描(去颅骨,配准到MNI 152模板)相当(MAE = 3.86年[3.67, 4.05],r = 0.949 [0.940, 0.958],p = 0.43)。整体模型通过平均原始T2加权和预处理的体积T1加权模型的预测,胜过任何单个模型(MAE = 3.35年[3.20, 3.50],r = 0.960 [0.952, 0.968],p = 0.02)。通过重复10个不同的训练/验证/测试分割的训练/测试程序生成了箱线图分布。

表4. 使用包括两个序列的研究检查的数据集,比较体积T1加权和轴向T2加权大脑年龄预测。

图片

4.讨论

     在这项研究中,我们展示了从临床级别、最少处理的轴向T2加权和轴向扩散加权扫描中准确预测大脑年龄。我们的模型在医院信托和扫描仪供应商之间具有很好的泛化能力,并对“过度衰老”表现出敏感性。总的来说,我们的大脑年龄框架显示了作为常规医院检查的筛查工具的可行性,以自动检测可能的病理性大脑萎缩,这对于患者护理、药物开发和自适应MRI序列采集具有重要意义。

     据我们所知,这是首个使用轴向T2加权扫描提供准确、可泛化的3D大脑年龄框架的研究。这一点很重要,因为轴向T2加权扫描通常是临床环境中最常采集的序列。例如,在KCH和GSTT(两个大型且有代表性的NHS医院信托机构),轴向T2加权扫描几乎在所有头部MRI检查中都被采集,包括常规检查和更有针对性的方案,例如肿瘤、中风或癫痫的方案。轴向扩散加权扫描也常在常规检查中采集。据我们所知,这也是首个使用这些扫描来展示准确大脑年龄预测的研究。相比之下,以前的大脑年龄研究主要使用体积T1加权扫描,尽管这在研究研究中常常执行,但并不是大多数临床头部MRI检查的一部分。

     一个值得注意的例外是最近的一项研究(Hwang等人,2021年),该研究提出了一种用于轴向T2加权扫描的2D CNN-based大脑年龄模型。在那项研究中,通过平均所有切片的预测来实现图像级别的大脑年龄预测。然而,可以确定这种方法的两个关键限制,这些可能导致该框架的较差泛化能力(在外部数据上测试时Δ MAE > 5年)。首先,那些不包含任何大脑组织的切片 - 因此不应影响大脑年龄(例如,图像中最下方的切片通常显示下颌和颈部,或者最上方的切片通常在头部之外) - 对最终预测的年龄的贡献与大脑中心的切片一样多。其次,每个切片都独立于所有其他切片处理;这排除了在轴向分离的特征之间建模非线性相互作用的可能性(例如,在任何给定切片内微妙的萎缩变化,但在轴向范围内具有重要意义)。相比之下,我们的3D模型能够通过使用“深度卷积”自然地在切片之间建模相互作用,并具有忽略与大脑年龄预测无关的特征的灵活性(例如,下颌、颈部等)。我们的模型与Hwang等人的模型的定量比较提供在附录D中。

      我们的研究还有许多其他优点。首先,通过使用最先进的神经放射学报告分类器,我们已经能够生成一个用于模型训练的大型、临床代表性的数据集,克服了一个关键瓶颈。这一点很重要,因为它确保了我们的深度学习模型可以在一系列扫描仪供应商和采集协议的数据上进行训练,这些数据来自覆盖整个成人寿命(18-95岁)的临床代表性人群。这反过来使我们的模型能够推广到样本外的数据(例如,来自外部医院和不同扫描仪供应商的扫描)。当用大脑预测年龄进行筛查时,超出训练数据集的泛化能力尤为重要,因为在这种情况下,模型的“错误”(即,预测年龄和实际年龄之间的不一致)是重要的。一个在非代表性数据上训练的大脑年龄模型可能会错误地高估年龄,不是因为患者的大脑外观较老,而是因为扫描相对于训练分布是一个异常值(例如,由于磁场强度和均匀性、图像分辨率或运动或其他伪影的存在的差异)。

      大规模训练还使我们的模型能够自动学习专注于与大脑年龄预测相关的特征(即大脑实质)并忽略无关特征,例如颅外组织和绝对图像位置。因此,我们已经能够避免那些通常执行以减轻对小型训练数据集的过拟合的额外预处理步骤(例如,剥离非大脑组织并将图像配准到标准空间)。避免图像预处理的一个重要好处是可以实现更快的大脑年龄预测。预处理可能在计算上昂贵,并且由于可能出现错误,需要手动质量保证。我们的框架能够加载任意分辨率和尺寸的轴向T2加权或扩散加权扫描,存储为DICOM文件,并最终在5秒内返回大脑年龄预测。这为临床应用开辟了一系列可能性,包括实时自适应序列采集,即大脑外观较老的患者自动转移到更有针对性的成像协议(例如“痴呆协议”)而仍在扫描仪中。

      重要的是,通过比较使用健康参与者的数据集的体积T1加权和轴向T2加权大脑年龄预测,其中在同一成像会话期间执行了两次扫描,我们已经证明了使用原始的、临床级别的轴向T2加权扫描的大脑年龄预测与使用体积T1加权扫描的预测相当。然而,值得注意的是,一个“集成模型”,它平均了两个模型的预测,明显优于两个单序列模型;这表明了在“痴呆协议”成像会话期间改善大脑年龄预测的可能方法,因为这些检查包括轴向T2加权和体积T1加权扫描。

      我们的研究基于自然语言处理领域的最近变革性发展。直到最近,由于神经放射学报告的词汇复杂性,自动基于文本分类的训练队列生成是不可行的。然而,在过去的两年中,最先进的“变换器(transformer)”式语言模型的开发和开源发布 - 这些模型已经在大量未标记文本的庞大集合上进行了预训练(例如,所有的英文维基百科,所有的PubMed Central摘要和文章等) - 使得从放射学报告中推导出准确的放射学类别标签成为可能(例如,“年龄放射学正常”,“年龄放射学异常”等)。通过这种方式,可以根据这些标签自动对大型医院数据库的头部MRI检查进行分组,促进大规模计算机视觉模型的开发(Wood等人,2021a)。为了使读者能够使用自己机构的数据生成大脑年龄模型开发的大型训练数据集,我们已经在此处提供了我们的神经放射学报告分类器训练脚本以及专用的标记“app”。

      我们的研究还存在一些局限性需要考虑。首先,尽管我们的结果支持在临床环境中使用大脑年龄来检测可能患有神经退行性疾病和认知衰老的过度萎缩的人,但目前尚不清楚该模型在具有明显异常的个体中的表现如何,因为该模型是在放射学上“正常年龄”的大脑上训练的。例如,肿瘤和大型中风可能离学习到的流形/潜在空间太远,以至于大脑年龄输出失去意义。然而,如果过度萎缩伴随其他异常发生,那么后者通常是临床管理的重点,过度萎缩通常在临床上具有最小的相关性;因此,这一局限性在实践中可能不是问题。其次,尽管我们已经使用可解释性方法确认我们的模型专注于大脑实质进行大脑年龄预测,而不是例如颅骨或其他非大脑组织,但我们并未系统分析哪些大脑特征对大脑年龄预测重要。这样的分析可能提供有关衰老过程的重要信息,作为进一步的工作,我们计划进一步研究这一问题。

结论 

      总之,我们展示了一个框架,该框架结合了大型医院数据库、自然语言处理和3D卷积神经网络,以提供来自最少处理的临床级结构MRI扫描的快速、准确和放射学相关的大脑年龄预测。这证明了在临床检查期间自动检测神经退化使用大脑年龄范例的可行性。此外,我们的框架可以用于利用现有的大型医院数据库的丰富资源,为训练、测试和医学图像分析工具的临床验证提供强大的新资源。

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值