脑龄预测:机器学习工作流的系统比较

 使用解剖学脑扫描预测的年龄与实际年龄之间的差异,即脑年龄delta,为非典型老化提供了一个代理指标。已有研究使用各种数据表示和机器学习(ML)算法进行脑年龄估计。然而,这些选择在对现实应用至关重要的性能标准上的比较,如:(1)数据集内准确性,(2)跨数据集泛化能力,(3)重测信度,以及(4)纵向一致性,尚未得到充分表征。我们评估了128个工作流,包括从灰质(GM)图像中提取的16种特征表示和8种具有不同归纳偏置的ML算法。利用覆盖成人生命周期(总N=2953,18-88岁)的四个大型神经影像数据库,我们通过依次应用严格标准进行系统的模型选择。128个工作流的数据集内平均绝对误差(MAE)在4.73-8.38年之间,其中32个广泛抽样的工作流表现出5.23-8.98年的跨数据集MAE。排名前10的工作流在重测信度和纵向一致性上具有可比性。特征表示和ML算法的选择均影响性能。具体而言,体素级特征空间(平滑和重采样)与非线性和基于核的ML算法结合使用,无论是否进行主成分分析,均表现良好。值得注意的是,脑年龄delta与行为指标的相关性在数据集内和跨数据集预测之间存在差异。在ADNI样本上应用性能最佳的工作流显示,与健康对照相比,阿尔茨海默病和轻度认知障碍患者的脑年龄delta显著较高。然而,在存在年龄偏差的情况下,患者的delta估计会因偏差校正所用样本而异。总之,脑年龄预测显示出应用前景,但需要进一步评估和改进以用于实际应用。本文发表在Neuroimage杂志。可添加微信号1996207406318983979082获取原文及补充材料,另思影提供免费文献下载服务,如需要也可添加此微信号入群,另思影提供脑影像数据分析及课程,如感兴趣也可添加微信咨询)

亮点:

• 特征空间和ML算法均影响预测误差。

• 体素级特征比区域级特征表现更好。

• 高斯过程回归(GPR)、核岭回归(KRR)和相关向量回归(RVR)算法表现良好。

• 站点内和跨站点的delta-行为相关性不一致。

• AD中较高的脑年龄delta推断取决于用于偏差校正的数据。

关键词:

脑年龄估计、健康老化、机器学习、回归分析

1. 引言:

      精准医疗和预防医学,如阿尔茨海默病(AD)的早期检测,可受益于个体水平的非典型老化量化。机器学习(ML)方法结合大型神经影像数据集可以提供这种个性化预测。事实上,ML算法可以捕捉与健康或典型老化相关的脑老化过程的多元模式(Franke et al., 2010; Varikuti et al., 2018; Cole 2020; Beheshti et al., 2022; Hahn et al., 2022)。这样的模型可用于从未见过的受试者影像预测年龄,即脑年龄。作为一个规范模型,实际年龄与预测年龄之间的较大偏差表明非典型老化。脑年龄与实际年龄的较大正差异,即脑年龄delta(我们简称为delta),表明"看起来更老"的大脑。作为未来经历与年龄相关健康问题风险的指标,delta与几个年龄相关风险因素和一般身体健康定量相关,如较弱的握力、较差的肺功能、中风史、较高的饮酒频率、较高的死亡风险(Cole et al., 2018; Cole, 2020),以及较差的认知功能如流体智力、加工速度、语义语言流畅性、视觉注意力和认知灵活性(Cole et al., 2018; Boyle et al., 2021; Richard et al ., 2018; Gaser et al., 2013; Cole et al., 2017)。总的来说,如果在不同ML工作流设计和其他分析下delta的可靠性得到验证,它可能作为大脑完整性和健康的综合生物标志物。

     研究表明,随着年龄增长,全局和局部灰质(GM)体积(GMV)丢失(Good et al., 2001; Galluzzi et al., 2008; Giorgio et al., 2010),而在神经退行性疾病中加速丢失(Good et al. , 2001; Karas et al., 2004; Fjell et al., 2014)。这使GMV成为通过脑年龄估计研究非典型老化的临床相关候选指标(Franke et al., 2010; Cole et al., 2015)。与使用白质体积(WMV)相比,使用GMV的脑年龄预测模型往往表现更好(Cole et al., 2017; Monté-Rubio et al., 2018),使GMV成为进一步研究的有前景的候选指标 。此外,通过减少模型预测误差中的方法和数据相关方差,delta可以更好地反映与非典型老化相关的生物学信号。

       脑年龄估计工作流由特征空间和ML算法组成,每个方面都有多种选择。例如,可以使用额外平滑和/或重采样的体素级数据,或者大脑图谱内的区域平均值作为特征(Varikuti et al., 2018; Eickhoff et al., 2021)。主成分分析(PCA)等进一步降维方法可以改善观察值与特征数比率和信噪比(Franke et al ., 2010; Franke et al., 2013; Gaser et al., 2013)。还需要从大量ML算法中进行选择,如相关向量回归(RVR)和高斯过程回归(GPR),其中许多已在脑年龄估计中取得成功。已知这些选择会影响性能(Gutierrez Becker et al., 2018; Baecker et al., 2021; de Lange et al., 2022)。

      使用基于体素形态测量(VBM)得到的GMV预测脑年龄的研究声称在健康个体中的预测误差约为5-8年(表S1)。然而,由于这些研究在实验设置和方法上存在差异,如使用的特征空间、ML算法、年龄范围和评估标准,因此很难进行比较。为了在实际应用中使用脑年龄估计模型,它必须在几个评估标准上表现良好:(1)模型应该在训练站点的新数据以及新站点的数据上都能很好地泛化,(2)重复测量的估计年龄必须可靠,(3)它还应表现出纵向一致性,即假设在测量之间没有显著的生活方式或健康相关干预改变,间隔时间更长的后续扫描的预测年龄应该成比例地更高。

       关键的一点,特别是对于临床应用,是delta与实际年龄之间普遍报告的负相关(Beheshti et al., 2019; Smith et al., 2019; de Lange and Cole, 2020)。当不考虑实际年龄时,这可能导致delta与非成像指标之间的虚假相关(Franke et al., 2013; Löwe et al., 2016)。这种年龄偏差使下游个性化决策变得复杂,甚至可能产生误导。它可以使用偏差校正模型来缓解;通常使用实际年龄预测脑年龄或delta的线性回归(Le et al., 2018; Liang et al., 2019; Smith et al., 2019; de Lange et al., 2022)。用于获得偏差校正模型的数据来源(站点内或跨站点)和大小对模型质量有实质性影响。综上所述,在设计脑年龄工作流程时,对选择的影响以及它们如何影响个体水平delta的估计和效用的理解存在差距。

       为了填补这一空白,我们系统地评估了128个工作流,包括从GM图像得到的16个特征空间和8个具有不同归纳偏置的ML算法。使用几个具有广泛年龄范围的大型神经影像数据库,我们首先评估了这些工作流的数据集内和跨数据集性能。接下来,我们评估了一些表现最好的工作流的重测信度和纵向一致性。然后,我们评估了性能最好的工作流在临床样本中的表现。我们调查了健康和临床队列中delta与行为/认知测量之间的相关性以及影响这些相关性的各种因素。我们还将我们性能最佳的工作流程与公开可用的模型brainageR进行了比较。进行了几项后续分析,以研究预处理(CAT vs. SPM)和组织类型(GM vs. GM+WM+CSF)选择对预测性能的影响。最后,鉴于最近的证据表明,较低准确性的模型可能更好地捕获非典型老化(Bashyam et al., 2020),我们研究了模型性能与delta以及delta-行为相关性的关系。

2.材料与方法

2.1 数据集

2.1.1 MRI数据

       我们使用了几个大型神经影像数据集(表1)中覆盖广泛年龄范围(18-88岁,训练数据)的健康受试者的T1加权(T1w)磁共振成像(MRI)数据,包括剑桥老龄化与神经科学中心 (CamCAN, N = 651)(Taylor et al., 2017),图像信息提取(IXI, N = 562)(https://brain-development.org/ixi-dataset/),增强版Nathan Kline Institute-Rockland样本(eNKI, N = 597)(Nooner et al ., 2012),1000个大脑研究(1000BRAINS; N = 1143)(Caspers et al., 2014),可靠性和重复性联盟(CoRR)(Zuo et al. , 2014),开放获取成像研究系列(OASIS-3)(LaMontagne et al., 2019)和MyConnectome数据集(Poldrack et al., 2015)。纳入标准为年龄在18至90岁之间,有性别数据,无当前或既往已知的神经系统、精神或重大医疗疾病诊断。IXI数据集是从多个站点获得的;然而,我们将其视为一个数据集,代表在嘈杂的临床环境中获得的典型数据。从OASIS-3数据集中,我们选择了在3T扫描仪上获得的健康对照受试者的扫描。brainageR使用的一些其他数据集也用于与我们最好的工作流进行公平比较。相应的详细信息在补充表S8中提供。

表1. 本研究中使用的数据集的样本特征。用于a. 训练数据集内模型的数据集。b. 训练跨数据集模型。c. 评估脑年龄delta的重测信度和纵向一致性,并与brainageR进行比较(注:对于CoRR完整样本,人口统计学报告用于最后一次迭代)。d.评估临床样本的表现。

缩写:CamCAN:剑桥老龄化与神经科学中心,IXI:图像信息提取(包括1.5和3T扫描),eNKI:增强版Nathan Kline Institute-Rockland样本,CoRR:可靠性和重复性联盟,OASIS-3: 开放获取成像研究系列,ADNI:阿尔茨海默病神经影像学倡议,HC:健康对照,EMCI和LMCI:早期和晚期轻度认知障碍,AD:阿尔茨海默病。

图片

     我们使用阿尔茨海默病神经影像学倡议(ADNI;https://adni.loni.usc.edu/)数据库来评估脑龄在神经退行性疾病中的效用(Jack et al.,2008;Petersen et al.,2010)。我们纳入了来自健康对照组(HC,N=209)、早期和晚期轻度认知障碍(EMCI,N=237;LMCI,N=128)以及阿尔茨海默病(AD,N=125)受试者的3T T1w图像。对于其中一些受试者,间隔1-2年的第二个时间点的数据可用(HC,N=153;EMCI,N=197;LMCI,N=104;AD,N=61)(表1d)。

2.1.2.非影像数据

      我们使用各种行为/认知测量来计算它们与delta的相关性。CamCAN数据集中Cattell文化公平测试评估的流体智力(FI;N=631)和运动学习任务的反应时间(N=302)(Taylor et al.,2017)。从eNKI数据集中,我们使用了颜色-文字干扰测试(CWIT)抑制试验完成时间(N=340)、连线测试(TMT)数字-字母切换条件完成时间(N=344)、韦氏成人智力量表(WASI-II)矩阵推理分数(N=347)和WASI-II相似性分数(N=347)(Nooner et al.,2012)。

     使用了来自ADNI的三项测量疾病严重程度的认知测试:简易精神状态检查(MMSE)、整体临床痴呆评定量表(CDR)和功能评估问卷(FAQ)。

      除1000BRAINS数据外,所有数据集均可公开获取。每项研究在当地获得了伦理审批和知情同意,涵盖参与和后续数据共享。使用和回顾性分析数据集的伦理方案由杜塞尔多夫海因里希-海涅大学医学院伦理委员会批准。

2.2.数据准备

      对于主要分析,所有T1w图像都使用计算解剖学工具箱(CAT)12.8版进行预处理(Gaser et al., 2022)。为了确保准确的标准化和分割,T1w图像的初始仿射配准是以高于默认的精度(accstr=0.8)进行的。在偏置场校正和组织类分割之后,使用精确优化的测地射线(Ashburner and Friston, 2011)进行标准化(regstr=1)。我们使用1 mm测地射线模板并输出1 mm各向同性图像。然后对标准化的GM分割进行线性和非线性变换的调制。

      为了与brainageR模型进行比较,我们使用了brainageR使用的7个数据集(表S8),并使用CAT 12.8进行预处理(第2.9节)。为了评估预处理和组织类型的影响,我们使用了brainageR实现的基于SPM12的预处理,其输出三个组织分割(GM、WM和CSF;参见https://github.com/james-cole/brainageR/)。

2.3. 工作流程

      每个工作流程包括一种特征表示和一种机器学习算法。我们评估了128个工作流程,包含16种特征表示和8种机器学习算法。

2.3.1. 特征表示 

      16种特征表示是从CAT预处理的体素水平灰质图像中得到的。使用体素水平数据可能会因为相对于样本数量而言的大量特征而导致过拟合,即所谓的维度灾难。因此,我们实现了两种之前在脑年龄预测中使用的降维方法。

      第一种策略是,在平滑和重采样后使用体素水平灰质体积(Franke et al., 2010),这可能也会提高信噪比。第二种策略是,使用图谱将不同脑区(称为区块)的数据汇总在一起。这产生了16种特征表示。

1. SX_RY:使用全脑掩模选择238,955个体素。然后,使用X mm FWHM高斯核进行平滑(S),并使用线性插值将空间分辨率重采样(R)为Y mm,其中X = {0, 4, 8},Y = {4, 8},得到六个特征空间(S0_R4, S0_R8, S4_R4, S4_R8, S8_R4, S8_R8;SX_R4:29,852个体素,SX_R8:3747个体素)。

2. SX_RY + PCA:另外,将PCA(Jolliffe, 2002)应用于每个SX_RY特征空间,同时保留100%的方差,再创建六个表示(S0_R4 + PCA, S0_R8 + PCA, S4_R4 + PCA, S4_R8 + PCA, S8_R4 + PCA, S8_R8 + PCA)。

3. 区块水平:通过结合皮层的{100, 400, 800, 1200}个区块(Schaefer et al., 2018)、36个皮层下区块(Fan et al., 2016)和37个小脑区块(Buckner et al., 2011),创建了四个区块水平的特征空间。我们计算了每个区块内所有体素的平均灰质体积(173、473、873和1273个特征)。

2.3.2. 机器学习算法

      包括了八种涵盖不同归纳偏置的机器学习算法:岭回归(RR)、最小绝对收缩和选择算子(LASSO)回归(LR)、弹性网络回归(ENR)、核岭回归(KRR)、随机森林回归(RFR)、高斯过程回归(GPR)、线性核相关向量回归(RVRlin)和一阶多项式核相关向量回归(RVRpoly)。这些算法之前已被用于从神经影像数据预测年龄和其他行为变量(Franke et al., 2010; Gaser et al., 2013; Su et al., 2013; Cole et al., 2015; Varikuti et al., 2018; Jonsson et al., 2019; Liang et al., 2019; Zhao et al., 2019; He et al., 2020; Baecker et al., 2021; Boyle et al., 2021; Lee et al., 2021; Peng et al., 2021; Treder et al., 2021; Vidal-Pineiro et al., 2021; Beheshti et al., 2022; Cole, 2020)(表S1)。这些算法的详细信息在补充方法中提供。

      最近,深度学习(DL)模型已成功应用于脑年龄估计(Jiang et al., 2019; Jonsson et al., 2019; Peng et al., 2021)。然而,在这项工作中,我们专注于传统的机器学习模型,原因如下:(1)机器学习模型已表现出与深度学习模型相当的性能(Cole et al., 2017; He et al., 2020; Schulz et al., 2020; Grinsztajn et al., 2022);(2)机器学习所需的资源更容易获得,因此仍然享有更广泛的适用性,具有更低的计算成本(Thompson et al., 2020; van Wynsberghe, 2021)。

2.3.3. 学习设置和软件

      机器学习算法的超参数使用内部交叉验证(CV)以嵌套方式进行估计(Varoquaux et al., 2017)。在训练之前,移除了低方差的特征(阈值< 1e-5),并对剩余特征进行了Z-score标准化,使其均值为零,方差为一。任何预处理步骤,包括PCA,都以CV一致的方式应用,以避免数据泄露,即在训练集上估计参数,并将其应用于训练集和测试集(More et al., 2021)。

    所有工作流程都在Python 3.9.1中使用Julearn机器学习库(https://juaml.github.io/julearn/)实现,该库又使用scikit-learn库实现了KRR、GPR和RFR学习算法(http://scikit-learn.org/) (Pedregosa et al., 2011)。LR、RR和ENR使用glmnet的Python包装器实现(https://pypi.org/project/glmnet/) (Friedman et al., 2010)。RVRlin和RVRpoly使用scikit-rvm包实现(https://github.com/JamesRitchie/scikit-rvm/)。用于预处理、特征提取、模型训练和预测的代码可在https://github.com/juaml/brainage_estimation获得。

2.4. 分析设置

      鉴于数据采集和站点相关的偏差,确定在不同评估场景下都表现出高准确性的工作流程非常重要。例如,在一个数据集上表现良好的工作流程可能无法在另一个数据集上表现良好。为了适应这种真实世界的情况,我们遵循一个系统的程序,将工作流程置于越来越严格的评估之下(图1)。简而言之,我们首先评估了128个工作流程的数据集内交叉验证性能。接下来,我们选择了32个能够表征整体性能模式的工作流程进行跨数据集评估。这种选择是通过在数据集内交叉验证性能上进行均匀采样来执行的。这允许在数据集内性能较低的工作流程可能在跨数据集评估中表现良好的可能性。最后,在32个工作流程中,根据测试-重测可靠性和纵向一致性评估了性能最好的10个工作流程。在考虑所有评估标准后,选择性能最佳的工作流程,并将其应用于ADNI数据以及与brainageR进行比较。具体的分析步骤如下所述。

图片

图1 用于脑年龄预测的最佳工作流程选择框架。首先使用5折交叉验证(CV)评估总共128个工作流程的数据集内预测性能。接下来,根据CV平均绝对误差(MAE)选择32个工作流程,并评估其跨数据集预测性能。数据集内和跨数据集评估是在四个数据集(CamCAN、IXI、eNKI和1000BRAINS)上进行的。然后,根据32个工作流程的测试MAE选择10个工作流程,并使用OASIS-3和CoRR数据集评估其测试-重测可靠性和纵向一致性。在考虑所有评估标准后,选择性能最佳的工作流程。

2.4.1. 数据集内和跨数据集评估 

      我们分别在四个数据集CamCAN、IXI、eNKI和1000BRAINS上评估了128个工作流程(见第2.3节)。这种情况假设有足够的数据集内训练数据可用,并在脑年龄估计工作中被广泛使用(Ashburner, 2007; Su et al., 2013; Gutierrez Becker et al., 2018)。为了估计每个受试者的单个样本外脑年龄,我们使用了5折交叉验证。对于每个保留(测试)折,剩余80%的数据用于训练,并使用重复5次的5折(5 × 5折)嵌套交叉验证获得泛化估计。所有交叉验证分析都按年龄分层,以保持年龄分布。获得每个受试者的单次预测(而不是如果外部交叉验证重复会得到每个受试者的多次预测)对于进一步的有意义分析非常重要,例如与非影像测量的相关性。因此,我们计算了两个指标,即测试性能和交叉验证性能。测试性能通过对外部5折取平均得到。交叉验证性能首先在内部5 × 5折交叉验证上取平均,然后在外部5折交叉验证上取平均。最后,将交叉验证性能和测试性能在四个数据集上取平均。使用平均绝对误差(MAE)、预测年龄与真实(时序)年龄之间的Pearson相关系数以及决定系数R2评估性能。

      我们遵循一个系统的程序来选择一部分工作流程,同时在交叉验证性能方面保持多样性。具体而言,将工作流程按其平均交叉验证MAE的升序排列,并分为16组。接下来,从每组中选择前两个工作流程(具有最低的交叉验证MAE)。

      我们在跨数据集上测试了这32个选定的工作流程,以获得无样本偏差的性能。这模拟了现实世界的情况,应用场景中的数据在训练时不可用,训练和测试数据来自具有混杂效应的不同来源,例如扫描仪硬件或操作员的不一致(Jovicich et al., 2006; Chen et al., 2014)。将四个数据集(CamCAN、IXI、eNKI和1000BRAINS)中的三个合并形成训练数据,将保留的数据集用作测试数据。在训练数据上执行5 × 5折交叉验证,以使用内部交叉验证进行超参数调整来估计泛化性能。交叉验证性能首先在5 × 5折交叉验证上取平均,然后在四个保留数据集上取平均。测试性能在四个数据集上取平均。再次使用MAE、预测年龄与真实年龄之间的Pearson相关系数以及决定系数R2评估性能。

      将32个工作流程按其平均测试MAE(即在保留数据集上的平均性能)的升序排列,从中选择前10个工作流程。

2.4.2. 测试-重测可靠性和纵向一致性

    然后,我们使用四个数据集组合作为训练数据(IXI + eNKI + CamCAN + 1000BRAINS,N = 2953;补充图S1),通过10个选定的工作流程训练模型。使用OASIS-3和CoRR数据集评估了这10个模型的delta的测试-重测可靠性和纵向一致性。

       为了评估测试-重测可靠性,我们使用了:在以下时间间隔内从相同受试者获得的两次扫描:(1)小于三个月(CoRR:N = 86,年龄范围= 20–84岁,OASIS-3:N = 36,年龄范围= 43–81岁),以及(2)在1到2年之间(CoRR:N = 95,年龄范围= 18–88岁)。计算了两次扫描的delta(预测年龄减去扫描时的年龄)之间的一致性相关系数(CCC)(Lin, 1989)。

      为了评估纵向一致性,使用了在以下重测持续时间内从相同受试者获得的两次扫描:(1)在2到3.25年之间(CoRR:N = 26,年龄范围= 18–57岁),以及(2)在3到4年之间(OASIS-3:N = 127,年龄范围= 46–86岁)。我们计算了两次扫描的预测年龄差异与实际年龄差异之间的Pearson相关系数。这里的正相关越高,表明纵向一致性越高。

      通过考虑数据集内和跨数据集分析、测试-重测可靠性以及纵向一致性的结果,我们选择了一个性能最佳的工作流程进行进一步分析。

2.5. 偏差校正

      许多研究报告了delta的年龄依赖性,即在年轻受试者中过度预测,而在老年受试者中预测不足(Le et al., 2018; Liang et al., 2019),这使得将delta用作个体化生物标志物变得有问题。一种常见的做法是应用统计偏差校正来消除年龄对预测年龄或delta的影响(Le et al., 2018; Liang et al., 2019; Smith et al., 2019; Cole, 2020; de Lange and Cole, 2020)。请注意,在计算delta与非影像测量的相关性时,当使用年龄作为协变量时,偏差校正预计与偏相关分析类似。

      有几种偏差校正的替代方法可用(de Lange et al., 2019; Cole, 2020; de Lange and Cole, 2020; Smith et al., 2019(Beheshti et al., 2019))。我们选择了Cole和同事使用的方法(Cole, 2020),因为它不使用测试数据的实际年龄,从而避免了信息泄露,这可能会通过使性能低下的工作流程看起来很好而偏向于工作流程之间的比较(de Lange et al., 2022)。此外,该方法与可能的未来应用相关,例如法医调查,其中测试年龄不可用。使用训练数据,将样本外(来自交叉验证)预测年龄作为因变量,将实际年龄作为自变量,拟合线性回归模型。通过减去得到的截距并除以斜率来校正测试集中的预测年龄。

2.6. 与认知测量的相关性

     为了理解偏差校正的效果以及协变量对delta-行为相关性的影响,我们使用CamCAN和eNKI数据集(见第2.1.2节)中的行为/认知测量与以下内容进行相关性分析:(1)未校正的delta,(2)以年龄为协变量的未校正delta,(3)校正后的delta,以及(4)以年龄为协变量的校正后delta。如果偏差校正消除了delta和年龄之间的对抗关系,我们预计(2)、(3)和(4)会给出类似的相关性。此外,为了评估用于学习偏差校正模型的数据的影响,我们使用从数据集内和跨数据集预测获得的delta进行了这些分析。

2.7. 临床样本中的脑年龄

     接下来,我们使用ADNI数据集(Jack et al., 2008; Petersen et al., 2010)在临床样本上验证我们性能最佳的工作流程。我们估计并比较了HC、EMCI、LMCI和AD受试者之间的delta(表1d)。

     我们在四个数据集上训练的性能最佳的工作流程用于获得预测,然后应用偏差校正模型(见第2.5节)。我们比较了两种偏差校正模型,一种是使用来自四个训练数据集的交叉验证预测得出的,另一种是使用ADNI数据中的HC样本得出的(Franke and Gaser, 2012)。使用方差分析(ANOVA)比较了组间校正后的delta,然后进行Bonferroni校正以抵消多重比较。为了模拟应用站点可能具有不同数量的HC样本的情况,我们使用无放回抽取的HC子样本(以0.1为步长从0.1到0.9的分数)学习偏差校正模型,并将其应用于全部HC和AD样本。重复该过程100次,以估计HC和AD受试者中平均校正delta的方差。

      最后,我们研究了校正后的delta与三个临床测试分数(MMSE、CDR和FAQ)之间的关联。使用整个样本和不同诊断组分别计算相关性,使用Pearson相关,并在两个会话中都使用年龄作为协变量。

2.8. MAE与delta和delta-行为相关性的关系

      在这里,我们试图选择一个能够提供准确可靠预测的工作流程。我们的理由是,能够准确预测健康个体年龄的工作流程捕获了典型的大脑衰老过程,因此,在新数据中大的delta可以被认为是非典型衰老的指标。然而,最近的证据表明,过度拟合的脑年龄模型(训练准确性高)在识别病理方面并不是最敏感的(Bashyam et al., 2020)。这项研究表明,相对适度拟合的模型在各种脑病理的对照组和疾病组之间产生了更显著的组间差异和更大的效应量的脑年龄delta。

      为了研究这种可能性,我们将从跨数据集分析中选择的32个工作流程与四个数据集合并在一起进行训练,并应用于ADNI数据的时间点2。为了了解模型性能如何随其效用变化,我们比较了模型的MAE与AD样本中校正后的平均delta,并检查其是否与delta-行为相关性有关。然后,我们在两个HC样本(CamCAN和eNKI)中使用相应的数据集内保留预测进行了类似的分析。

2.9. 与brainageR的比较以及预处理和组织类型的影响

       我们将我们性能最佳的工作流程与已有的脑年龄估计模型brainageR进行了比较。brainageR模型使用GPR算法在七个公开可用的数据集中的3377名健康个体(年龄范围= 18-92岁,平均年龄±SD = 40.6±21.4岁)上进行训练。它使用SPM12分割和标准化T1w图像,从中提取GM、WM和CSF向量(使用0.3概率掩码的brainageR特定模板)。使用PCA降低数据维度,保留了解释80%方差的435个成分。请注意,brainageR使用三种组织类型,而我们的重点是GM。

        为了避免由于不同训练数据导致的偏差,在这个比较中,我们使用了与brainageR使用的相同受试者的数据(2名受试者无法处理;表S8)。接下来,使用这些训练数据,我们使用从CAT 12.8提取的GMV训练我们性能最佳的工作流程,并在三个数据集上将其性能与已经训练好的brainageR模型进行比较:(1)CoRR(N = 107,子采样以保持年龄范围= 18-88岁的均匀分布,重复100次;更多细节见补充方法),(2)OASIS-3(N = 806;每个受试者的第一次扫描,年龄范围= 43-89岁),以及(3)MyConnectome研究(一个受试者在3年内扫描20次;年龄范围= 45-48岁)。此外,我们使用OASIS-3的子样本,测试-重测持续时间分别为(1)小于3个月(N = 36,43-81岁)和(2)3到4年之间(N = 127,46-86岁),以评估测试-重测可靠性和纵向一致性(见第2.4.2节)。

       接下来,我们比较了预处理和组织类型如何影响模型性能。根据我们对GMV的关注,我们比较了:(1)CAT预处理的GMV,(2)SPM预处理的GMV,以及(3)遵循brainageR的SPM预处理的GM、WM和CSF图像。后者研究了WM和CSF特征是否提供补充信息,从而导致更好的预测。为此,我们在IXI和CamCAN数据集上进行了数据集内评估(见第2.4.1节)。

3. 结果

3.1. 数据集内和跨数据集预测

      对于数据集内分析,计算了交叉验证(CV)性能(125个估计值的平均值——内部5×5折交叉验证,重复5次,见第2.4.1节)和基于外部交叉验证的每个受试者的单次预测的测试性能。然后分别对四个数据集进行平均。

      平均CV MAE(4.90-8.48年)和平均测试MAE(4.73-8.38年)(图2a,表S2)相似,表明嵌套交叉验证泛化估计确实能够指示其测试性能。测试数据上真实年龄和预测年龄之间的相关性范围为0.81至0.93,而年龄偏差(真实年龄和delta之间的相关性)范围为-0.22至-0.83(表S2)。总体而言,所有工作流的预测都表现出高度相似性(在四个数据集中平均相关性为0.83-0.99;图S2)。前20个工作流表现出可比的CV和测试MAE,差异小于0.4年。

图片

图2. 数据集内和跨数据集结果。

a. 线图显示了128个工作流的CV MAE(在四个数据集中平均),按递增顺序排列(所有工作流的名称在表S2中给出)。橙色条表示32个选定工作流的MAE,其名称在左侧表格中。

b. 使用S4_R4 + GPR工作流对CamCAN数据的实际年龄和数据集内预测年龄的散点图(MAE = 4.94年,r = 0.94,p = 6.4e-309)。

c. 线图显示了32个工作流的测试MAE(在四次运行中平均),按递增顺序排列(所有工作流的名称在表S3中给出)。紫色条表示10个选定工作流的MAE,其名称在右下角的表中。

d. 使用S4_R4 + PCA + GPR工作流对CamCAN数据的实际年龄和跨数据集预测年龄的散点图(MAE = 4.75年,r = 0.95,p = 0.0e+00)。

       表现良好的工作流主要由体素级平滑和重采样的特征空间组成,有无PCA均可,其中S4_R4(使用4 mm FWHM核进行平滑并重采样至4 mm空间分辨率)通常表现更好。一些使用PCA的工作流与其各自的非PCA版本表现相似,但并非全部(见补充表S2)。GPR、KRR、RR和两种RVR算法通常排名较高。大多数算法在区域级特征上表现较差,而RFR通常表现最差。

       工作流S4_R4 + GPR表现最佳(见表2a,其在四个数据集中的表现)。该工作流显示出最低的平均CV MAE,真实年龄和预测年龄之间具有高R2和高相关性(图2b),但年龄偏差相对较高(图S3)。第二好的工作流S4_R4 + PCA + GPR与最佳工作流表现相似。其他具有S4_R4特征空间的工作流,无论是否使用PCA,与KRR、RVRpoly和RVRlin算法一起,表现相当。从128个工作流中,我们选择了32个工作流,在CV MAE方面保持多样性。

表2.最佳工作流在不同数据集上的性能指标。

a. 数据集内预测(使用S4_R4 + GPR)。

b. 跨数据集预测(使用S4_R4 + PCA + GPR)。

缩写:MAE:真实年龄和预测年龄之间的平均绝对误差,MSE:真实年龄和预测年龄之间的均方误差,R2:模型中自变量解释的预测年龄方差比例,Corr(true, pred):真实年龄和预测年龄之间的Pearson相关性,Age bias:真实年龄和脑年龄delta之间的Pearson相关性。

图片

      为跨数据集分析选择的32个工作流显示,平均CV(训练数据上的5×5折)MAE(4.28-7.39年)低于测试(保留数据集)MAE(5.23-8.98年)(图2c)。测试集上真实年龄和预测年龄之间的相关性范围为0.82至0.93,而年龄偏差范围为-0.27至-0.75(表S3)。所有工作流的预测都表现出高度相似性(在四次运行中平均相关性为0.83-0.99)。由于这种高度相似性,来自32个工作流的平均预测,即集成,并不比表现最好的工作流更好(图S2)。在数据集内表现良好的工作流在跨数据集预测中也表现良好(图S6)。这些结果表明,相应的模型可以很好地推广到来自新的未见过的站点的数据。

      我们选择了10个测试MAE最低的工作流进行进一步分析。这些工作流仅由体素级特征空间(S4_R4、S4_R8和S0_R4)组成,有无PCA均可。ML算法包括GPR、RVRlin、RR和LR。表现最好的工作流是S4_R4 + PCA + GPR,其具有最低的平均测试MAE、高R2、真实年龄和预测年龄之间的高相关性(图2d)以及中等年龄偏差(图S3),见表2b,其在所有四个数据集上的表现),其次是S4_R4 + GPR工作流。

3.3. 测试-重测可靠性和纵向一致性

       使用CoRR和OASIS-3数据集评估了从跨数据集评估中选择的前10个工作流的测试-重测可靠性和纵向一致性。

       对于少于三个月的短期重测持续时间,所有10个工作流都显示出高测试-重测可靠性(CoRR:CCC = 0.95-0.98,年龄范围= 20-84岁;OASIS-3:CCC = 0.77-0.86,年龄范围= 43-81岁)。对于CoRR数据集中1-2年的较长重测持续时间,CCC范围在0.94-0.97之间(年龄范围= 18-88岁)(表3)。这些结果表明,所选工作流可靠地估计了年龄。

表3. CoRR和OASIS-3数据集中,前10个工作流在不同测试-重测持续时间下,两个会话的脑年龄delta之间的一致性相关系数(CCC)及其各自的真实年龄和预测年龄之间的平均绝对误差(MAE)。

图片

接下来,我们评估了纵向一致性,作为预测年龄差异与实际年龄差异之间的相关性(图3,表S4)。在CoRR数据集中,10个工作流中有6个在2-3.25年的重测持续时间下表现出显著的正线性关系(r在0.451-0.437之间,p<0.05)。这些工作流包括使用GPR、RVRlin和RR算法的S4_R4特征空间,有无PCA均可。相比之下,在OASIS-3数据集(重测持续时间3-4年)中,没有一个工作流表现出线性关系。

图片

图3.纵向一致性。 (顶部)同一受试者两次扫描的脑年龄delta,以及(底部)两次扫描之间的实际年龄差异与预测年龄差异之间的散点图,重测持续时间为a. 2-3.25年(CoRR数据集)b. 3-4年(OASIS-3数据集)。

      尽管工作流表现出相似的测试-重测可靠性和纵向一致性,但S4_R4 + PCA + GPR工作流在这些子样本上显示出最低的MAE(表3,S4)。因此,考虑到所有分析情况,数据集内、跨数据集、测试-重测可靠性和纵向一致性,尽管其他工作流也具有竞争力,我们认为S4_R4 + PCA + GPR工作流表现良好,并选择它进行进一步分析。

3.4.偏差校正和与行为/认知测量的相关性

      在CamCAN数据中,FI与年龄呈负相关(r=-0.661,p=1.92e-80),而运动学习反应时间与年龄呈正相关(r=0.544,p=1.11e-24)。在eNKI数据中,CWIT抑制试验完成时间(r=0.361,p=6.50e-12)和TMT数字-字母切换试验完成时间(r=0.279,p=1.45e-07)与年龄呈正相关。另一方面,WASI矩阵推理分数与年龄呈负相关(r=-0.240,p=6.03e-06),而WASI相似性分数与年龄无关(r=0.052,p=0.332)(表4)。

表4.脑年龄delta与各种行为测量的相关性,有无偏差校正。

a. 来自数据集内预测。b. 来自跨数据集预测。年龄被用作协变量。缩写:CWIT:颜色-词语干扰测试,TMT:连线测试,WASI-II:韦氏简易智力量表。

图片

     由于已经提出了几种获得delta与行为之间相关性的方法,例如使用偏差校正的delta或使用年龄作为协变量,我们评估了几种备选方案(见第2.6节)。

3.4.1.数据集内预测

     使用所选工作流(S4_R4 + PCA + GPR)得出数据集内保留预测,即每个受试者的单次预测。使用同一数据集上的CV预测估计偏差校正模型。在两个数据集中,偏差校正后没有残余年龄偏差:CamCAN,r=-0.17,p=1.13e-05和r=0.00,p=0.999;eNKI,r=-0.20 p=4.53e-07和r=0.001,p=0.986,分别为校正前和校正后(图S3)。

     我们首先使用年龄作为协变量计算未校正delta与行为测量之间的相关性(表4a)。在CamCAN数据中,较高的delta与较低的FI(r=-0.154,p=0.0001)和较高的运动学习反应时间(r=0.181,p=0.002)相关。在eNKI数据中,较高的delta与较低的反应抑制和选择性注意力相关,表现为较高的CWIT抑制试验完成时间(r=0.109,p=0.045)。delta与智力分数(WASI矩阵推理和相似性)之间没有相关性。使用年龄、年龄平方和性别作为协变量的结果显示出类似的趋势(表S5a)。

     接下来,我们用校正后的delta重复这一分析(表4a),并期望得到与使用年龄作为协变量的未校正delta相似的结果。我们确实在CamCAN数据中发现了与FI(r=-0.157 p=7.24e-05)和运动学习反应时间(r=0.186 p=0.001)相似的相关性,但在eNKI数据中没有发现与CWIT抑制试验完成时间(r=0.094,p=0.084)显著相关。使用具有协变量的校正delta的相关性与具有协变量的未校正delta高度相似(表4a)。

3.4.2.跨数据集预测

   使用分别在IXI + eNKI + 1000BRAINS(N=2302)和IXI + CamCAN + 1000BRAINS(N=2356)数据集上训练的S4_R4 + PCA + GPR工作流,得出CamCAN和eNKI数据集的跨数据集预测。

      在CamCAN数据中,偏差校正模型是成功的,校正前和校正后的年龄偏差分别为r=-0.23,p=3.06e-09和r=-0.04,p=0.263。然而,在eNKI数据中,校正并不成功;校正前和校正后的年龄偏差分别为r=-0.49,p=3.62e-38和=-0.35,p=8.39e-19(图S3)。这一结果表明,当应用于跨数据集时,偏差校正可能并不总是有效。

      在未校正的delta上使用年龄作为协变量,我们在CamCAN数据中没有发现显著的delta-行为相关性。在eNKI数据中,较高的delta与较低的反应抑制和选择性注意力相关,表现为较高的CWIT抑制试验完成时间(r=0.208,p=0.0001),以及较低的认知灵活性,表现为较高的TMT完成时间(r=0.147,p=0.006)(表4b)。delta与智力分数(WASI矩阵推理和相似性)之间没有相关性。使用年龄、年龄平方和性别作为协变量的结果显示出类似的趋势(表S5b)。

      由于校正后的delta与年龄之间存在残余相关性,因此在没有年龄作为协变量的情况下,与行为的相关性可能不可靠。因此,我们不讨论没有年龄作为协变量的校正delta的相关性,但为了完整性,它们在表4中进行了报告。此外,正如预期的那样,使用年龄作为协变量的校正delta的相关性与具有协变量的未校正delta相似(表4b)。

3.5. ADNI样本中的预测

       在时间点1,未校正的delta平均值在HC中为-5.97岁,在EMCI中为-4.39岁,在LMCI中为-3.57岁,在AD中为-2.13岁(图4a)。换句话说,该模型低估了年龄。使用训练数据(CV预测)得出的偏差校正模型的斜率和截距不能完全校正低估和年龄偏差(图4b)。使用整个ADNI HC样本进行偏差校正消除了偏差(平均delta,HC = 0,EMCI = 0.85,LMCI = 2.09,AD = 4.47岁)(图4c)。方差分析显示,校正后的delta在组间存在显著差异(F = 12.94,p = 3.10e-08),事后t检验在Bonferroni校正后发现AD与HC(p = 1.16e-08)、EMCI(p = 1.87e-05)、LMCI(p = 0.043)以及HC与LMCI(p = 0.022)之间存在显著差异。在时间点2,模式与时间点1相似,但校正后的delta值更高(EMCI = 1.15岁,LMCI = 2.88岁,AD = 6.59岁)(图4e-f,表5)。这些结果表明,我们的模型能够捕捉与健康受试者年龄相关的正常结构变异范围,以及MCI和AD患者中的偏差。

图片

图4.临床人群中的脑年龄delta。方框图比较了ADNI样本中健康对照(HC)、早期轻度认知障碍(EMCI)、晚期轻度认知障碍(LMCI)和阿尔茨海默病(AD)在(左)时间点1和(右)时间点2的delta。方框图a & d.未校正的delta。b & e.使用训练集的CV预测校正的delta。c & f.使用HC-ADNI受试者预测校正的delta。

表5.使用最佳表现(S4_R4 + PCA + GPR)工作流对两个时间点的ADNI数据的预测性能。缩写:HC:健康对照,EMCI和LMCI:早期和晚期轻度认知障碍,AD:阿尔茨海默病。

图片

      使用年龄作为协变量计算了HC样本校正delta与各种临床测试分数之间的相关性(表6)。在时间点1,在整个样本中,delta与MMSE呈负相关(r=-0.255,p=0.016),与FAQ呈正相关(r=0.275,p=0.005)。在单个诊断组中没有发现相关性,或者由于分数数据不足而无法计算。在时间点2,在整个样本中,delta与MMSE呈负相关(r=-0.303,p=2.40e-12),与CDR(r=0.270,p=7.35e-10)和FAQ(r=0.331,p=2.31e-14)呈正相关。在AD组中,delta与FAQ呈正相关(r=0.298,p=0.021),但与MMSE或CDR无关。在LMCI组中,delta与FAQ呈正相关(r=0.309,p=0.002),与MMSE呈负相关(r=-0.227,p=0.022),与CDR无关。在EMCI组中,delta与CDR呈正相关(r=0.153,p=0.034),但与MMSE和FAQ分数无关。在HC组中没有发现相关性。以年龄、年龄平方和性别为协变量的相关性相似(表S6)。

表6.使用S4_R4 + PCA + GPR工作流校正的脑年龄delta与ADNI样本中以年龄为协变量的认知测量(MMSE、CDR和FAQ)之间的Pearson相关系数。分别计算了整个样本和每个诊断组(HC、EMCI、LMCI和AD)在两个时间点的相关性。

缩写:MMSE:简易精神状态检查,CDR:全球临床痴呆评定量表,FAQ:功能评估问卷; HC:健康对照,EMCI和LMCI:早期和晚期轻度认知障碍,AD:阿尔茨海默病。

图片

我们还发现,用于偏差校正的HC样本大小对AD受试者的平均校正delta有相当大的影响(图S7)。具体而言,当HC受试者较少时,在两个时间点AD的校正delta方差要高得多,例如,在时间点1使用21个HC样本时,平均AD delta范围在∼1-12岁之间,随着子样本接近完整样本,最终收敛到4.47岁。

3.6. MAE与delta和delta-行为相关性的关系

      使用从跨数据集评估中选择的32个工作流,我们分析了模型性能(MAE)是否与其脑-行为相关性相关。AD中的校正平均delta范围从5.43年到10.01年,一些相对表现较差的模型在AD中产生了较高的delta(表S7)。较低的准确性(较高的MAE)与较强的delta-MMSE相关性相关(图5c)。相比之下,较低的MAE与两个健康样本中较强的脑-行为相关性相关,即CamCAN中的delta-运动学习反应时间和eNKI数据集中的delta-CWIT抑制试验完成时间(图5a和b)。

图片

图5.使用32个工作流获得的MAE与delta-行为相关性之间的相关性 

a. CamCAN(N=302)b. eNKI(N=340)c. ADNI(N=61)。对于CamCAN和eNKI数据,使用以年龄为协变量的数据集内delta-行为相关性。对于ADNI数据,我们使用了以年龄为协变量的校正delta(使用HC样本校正)的delta-行为相关性。

3.7. 与brainageR的比较以及预处理和组织类型的影响

      接下来,我们使用CoRR、OASIS-3和MyConnectome数据集比较了在相同数据上训练的S4_R4 + PCA + GPR工作流和brainageR模型(图6)。

图片

图6.在a上比较我们最好的工作流(S4_R4 + PCA + GPR)和brainageR模型。

CoRR数据集(左)使用107个受试者的子样本比较两个模型预测年龄与真实年龄的方框图,(中)年表(真实)年龄与预测年龄之间的散点图,(右)年表(真实)年龄与脑年龄delta之间的散点图。

b. OASIS-3数据集(为了视觉清晰,使用随机子样本创建了方框图; N=120)c. MyConnectome数据集(红色交叉表示从分析中删除的异常值扫描; 最终N=19)。所有数据集的性能指标。对于CoRR数据集,该表显示了100次迭代子样本数据的平均值,但图是从一次迭代中得出的。

    在CoRR数据集中,S4_R4 + PCA + GPR(平均MAE=4.69,r=0.947,偏差r=-0.377)在MAE方面优于brainageR(平均MAE=4.91,r=0.946,偏差r=-0.128)(配对t检验:t=-8.04,p=1.97e-12),但brainageR表现出较低的平均年龄偏差(Steiger's Z检验(Steiger,1980)z=-3.31,p=0; 图6a和S8)。两个模型的平均真实年龄和预测年龄相关性之间没有显著差异(z=0.133,p=0.447)。

     在OASIS-3数据集上,S4_R4 + PCA + GPR(MAE=4.74,r=0.836,偏差r=-0.092)也显示出比brainageR(MAE=5.07,r=0.805,偏差r=-0.058)更低的MAE(图6b)。两个模型的预测年龄(配对t检验:t=-1.37,p=0.17)和偏差(z=-1.031,p=0.151)相似,但我们模型的r值显著更高(z=3.101,p=0.001)。在OASIS-3数据集的子样本(重测持续时间<3个月)上的重测信度对于brainageR更高(CCC=0.94 vs. S4_R4 + PCA + GPR为0.82)。两个模型在重测持续时间为3-4年时均未显示纵向一致性。

     此外,在MyConnectome数据集上,S4_R4 + PCA + GPR工作流(MAE=4.13)的表现显著优于brainageR(MAE=7.18)(配对t检验:t=9.60,p=1.66e-08; 图6c)。请注意,从该分析中排除了一个异常值扫描(真实年龄=48)(最终N=19)。

     为了深入了解预处理的影响,我们使用SPM预处理比较了IXI和CamCAN数据集上我们工作流的数据集内表现。在这两个数据集上,CAT衍生的GM特征(IXI:MAE=4.85年; CamCAN:MAE=5.01)均优于SPM衍生的GM特征(IXI:MAE=6.25; CamCAN:MAE=5.82)(表7)。来自三种组织类型的SPM衍生特征(IXI:MAE=5.08; CamCAN:MAE=4.88)优于仅使用SPM衍生的GM特征,表明不同组织类型携带互补信息(表7)。

4.讨论

4.1. 特征空间和机器学习算法的影响

      设计脑龄估计工作流时,可用的选择范围很广,这使得区分特征空间和机器学习算法的影响变得具有挑战性。为此,我们研究了128个工作流,包括从GMV图像中提取的16个特征表示(体素和分区)与八种机器学习算法的组合。

      先前的研究表明,当使用GMV特征时,对于广泛的年龄范围数据(18-90岁),年龄预测MAE在约5-8年之间(表S1)。我们的工作流显示了类似范围的性能,其中一些工作流能够很好地推广到来自新站点的数据。具体而言,在CV中MAE范围在4.90-8.48年之间,在测试数据中为4.73-8.38年,用于数据集内分析;而对于数据集间分析,在CV和测试数据中分别为4.28-7.39年和5.23-8.98年。对于数据集内和数据集间分析,测试MAE和R2高度相关(表S2和S3,图S5)。在数据集内分析中表现良好的工作流在数据集间分析中也表现良好。与数据集内CV MAE(4.90-8.48年)相比,数据集间CV MAE较低(4.28-7.39年),这可能是因为数据集间分析中的样本量更大,或者可能是小样本中的过拟合。这证实了先前的研究,表明训练集较大时误差较低(Baecker et al., 2021; de Lange et al., 2022),与其他研究相反,后者显示样本量与CV性能估计呈负相关(Wolfers et al., 2015; Varoquaux, 2018)。训练和测试数据的年龄范围影响性能估计。具体而言,当使用狭窄的年龄范围时,MAE和RMSE等性能指标通常优于广泛年龄范围的评估(Cole, 2020; Peng et al., 2021; de Lange et al., 2022)。然而,在这些情况下,误差较低,因此脑龄delta值较小,不一定是由于模型性能更好,而是因为预测更接近该组的平均年龄。在这里,我们的重点是广泛年龄范围的模型,我们获得的误差在之前显示的范围内。

      我们的结果表明,特征空间和机器学习算法的选择都会影响预测误差。一般来说,从体素GMV(如S4_R4、S4_R8和S0_R4)得到的特征空间与GPR、KRR、RVRpoly和RVRlin算法相结合,在数据集内分析中表现良好。对于某些工作流,保留100%方差的PCA结果相似,但并非所有工作流都是如此,特别是正则化模型(LR和ENR)在PCA后显示出较低的性能(见补充表S2)。这可能是由于机器学习算法的不同偏差,例如,由于正则化。稀疏诱导惩罚加上PCA可能导致精度较低的模型。其中一些选定的工作流在数据集间分析中也表现良好。具体而言,4 mm FWHM内核平滑并重采样到4 mm空间分辨率的体素GMV特征,在没有和有PCA(S4_R4和S4_R4 + PCA)的情况下,与GPR算法一起在数据集内和数据集间分析中表现最好。先前的一项研究报告了3.73 mm3的体素大小和3.68 mm的平滑内核是处理用于脑龄预测的GM图像的最佳参数,性能与我们的工作流相似(Lancaster et al., 2018)。总的来说,无论使用何种机器学习算法,分区特征的表现都不如体素特征,这表明从分区汇总的GMV会导致与年龄相关的信息丢失。我们的结果与最近的一项研究一致,该研究比较了几种机器学习模型(GPR-点积内核、RVR-线性内核和SVR-线性内核),这些模型在基于区域和基于体素的特征上进行训练,有或没有PCA,年龄范围较窄(47-73岁)(Baecker et al., 2021)。他们发现,由于基于体素的特征优于基于区域的特征,机器学习算法导致的性能差异很小。

      我们的结果还表明,非线性算法(具有RBF内核的GPR)和基于内核的算法(KRR和RVR)优于线性算法,如RR和LR。令人惊讶的是,无论使用何种特征空间,非线性RFR算法的表现最差(图S4)。这表明,使用RBF内核捕获分布信息(如我们使用GPR所做的那样)以及使用以不变方式捕获GMV特征之间相似性的内核(例如,Pearson相关)是有益的。这些结果证实了最近的一项研究,该研究全面评估了22种回归算法(测试MAE在4.63-7.14年之间),在广泛年龄范围数据(18-94岁)中使用GMV特征,发现SVR、KRR和具有多种内核的GPR表现良好(Beheshti et al., 2022)。

      总之,平滑和重采样的体素数据(如S4_R4、S4_R8)与非线性或基于内核的算法(具有RBF内核的GPR、具有多项式内核次数(1或2)的KRR以及具有线性和多项式次数1内核的RVR)非常适合脑龄估计。有时,特别是当特征数量很大时,PCA可能有助于提高性能(Franke et al., 2010; Baecker et al., 2021)。然而,我们发现这些工作流在有和没有PCA的情况下性能相似。因此,可以直接使用特征来立即解释模型;另一方面,如果计算是一个约束,那么保留100%方差的PCA可以在不影响性能的情况下使用。

      未来的研究可以研究改进模型泛化性的选择,例如数据协调以消除站点效应以及考虑人口结构(例如,在使用的数据集中高加索人群的过度代表性)。

4.2. 测试-重测信度和纵向一致性

       大脑年龄估计值在同一个体内必须是可靠的。我们发现delta在短时间扫描延迟内是可靠的(CoRR: CCC = 0.95–0.98,年龄范围= 20–84;OASIS-3: CCC = 0.76–0.85,年龄范围= 43–80)。以前的研究报告了在短时间内扫描持续时间内delta的可靠性。例如,一项研究表明,间隔平均28.35±1.09天扫描的受试者(N=20,第一次扫描时的平均年龄=34.05±8.71)的delta之间的组内相关系数(ICC)为0.96(Cole et al., 2017)。另一项研究表明,来自OASIS-3数据集的年轻成年人(N=20,年龄范围=19-34)在少于90天的短时间延迟内扫描的ICC为0.93(Franke and Gaser 2012)。另一项研究发现,在扫描之间平均间隔79天(N=20,实际年龄=45岁)的ICC为0.81(Elliott et al., 2021)。

      对于实际应用来说,纵向一致性,即预测年龄按时间顺序成比例增加,至关重要。先前的研究表明,生活方式干预,如冥想和锻炼(Luders et al., 2016; Steffener et al., 2016),可以对大脑年龄产生积极影响,而吸烟和饮酒等因素可能产生不利影响(Bittner et al., 2021)。例如,18个月的生活方式干预,包括饮食改变和身体活动,在一个纵向样本中显示出大脑年龄减弱,这与几项生理指标的改善相关(Levakov et al., 2022)。因此,生活方式可以导致不同的纵向大脑年龄轨迹。然而,在我们的分析中,我们假设在重测持续时间内没有这样的干预,因为数据集没有提供这样的信息。在这个假设下,我们预计大脑年龄将与实际年龄成比例增加。

       支持这一假设的是,我们在CoRR数据集中发现,在2-3.25年的重测持续时间内(N=26; r=0.447,p=0.022),预测年龄差异与实际年龄差异之间存在正线性关系。然而,在OASIS-3数据集中,重测持续时间为3-4年(N=127; r=-0.008,p=0.932),没有相关性。因此,纵向一致性的证据很弱。推测性地解释,这可能是因为最大的测试-重测持续时间为3-4年,处于OASIS-3数据集的MAE范围内(MAE会话1:5.08和会话2:5.86年,表S4)。总之,高信度支持在临床环境中使用大脑年龄;然而,需要进一步的评估来建立纵向一致性。

4.3. 偏差校正的影响

      大多数大脑年龄估计工作流程产生有偏结果,即在较年轻年龄高估,在较老年龄低估(Liang et al., 2019)。因此,纠正这种年龄偏差对于促进个体水平的决策很重要。在这里,我们采用了一个偏差校正模型,该模型不使用测试样本的实际年龄进行校正(Cole, 2020),因为使用实际年龄可能会妨碍工作流之间的公平比较(de Lange et al., 2022)。

      对于数据集内(r在-0.22到-0.83之间)和跨数据集(r在-0.27到-0.75之间)预测,测试的工作流程通常显示实际年龄和delta之间的负相关。然而,这种年龄偏差在更准确的模型中不太明显(图S5)。这一结果与之前的工作(de Lange et al., 2022)一致,该工作表明,如果输入特征不够信息量来预测年龄,预测将更接近中位数或平均年龄,导致这种偏差。此外,我们发现,用于估计偏差校正模型的数据可以显著影响校正后的delta。具体而言,数据集内派生的模型比跨数据集模型更充分地校正了年龄偏差(图S3)。这种差异可能是由于训练数据和站外测试数据之间的数据属性(例如,特定于扫描仪的特质)差异造成的。我们的结果表明,即使训练数据本身包含多个站点,偏差校正模型在应用于新站点时也可能不总是有效。因此,使用部分测试数据来校正剩余测试数据中的年龄偏差效果很好(如ADNI数据分析中所见,第3.5节)。然而,当测试样本较小或在极端情况下只有一个测试对象时,这可能是不可行的。

      学习偏差校正模型需要多少数据是一个重要但尚未探索的问题。我们通过从ADNI数据的HC受试者的子样本中学习偏差校正模型来研究这一点。当应用于AD患者时,较小的样本量导致偏差校正模型的有效性方差较大(Varoquaux,2018)。例如,在最小样本量(N=21)时,AD患者的平均校正delta从1年到12年不等(图S7,ADNI时间点1)。不同的研究可能使用不同的样本进行偏差校正,因此在解释和比较结果时应谨慎。这一结果表明,使用大样本进行偏差校正的重要性,并强调谨慎分析和报告结果的必要性。

4.4. 与行为的相关性

      使用选定的工作流程,我们观察到delta与行为测量的相关性对delta是否针对年龄进行了调整很敏感,无论是通过偏差校正还是将其用作协变量。例如,未校正的delta与FI和运动学习反应时间(在CamCAN数据中)或CWIT抑制试验完成时间(在eNKI数据中)无关;然而,使用年龄调整的delta获得了显著的相关性(表4)。因此,在分析delta和行为测量之间的相关性时,控制年龄很重要。

      使用数据集内分析的样本外预测,我们发现较高的未校正delta(以年龄为协变量)与较低的FI、较高的运动学习反应时间(来自CamCAN数据)以及较低的反应抑制和选择性注意力(由较高的CWIT抑制试验完成时间表示,来自eNKI数据)相关。我们预期这些相关性与使用校正delta计算的相关性相似(de Lange和Cole,2020),因为没有显著的年龄偏差。在CamCAN数据中,使用未校正delta(以年龄为协变量)和校正delta的行为相关性非常相似(FI:r=-0.154,p=0.0001 vs. r=-0.157,p=7.24e-05;运动学习反应时间:r=0.181,p=0.002 vs. r=0.186,p=0.001)。然而,CWIT抑制试验完成时间与未校正delta(以年龄为协变量)的相关性显著,但使用校正delta时则不显著(r=0.109,p=0.045 vs. r=0.094,p=0.084)。这种轻微差异可能由小效应量和用于校正的两种方法固有的差异来解释。

      我们还发现,在以年龄为协变量的情况下,数据集内和跨数据集预测的delta-行为相关性之间存在分歧。例如,CamCAN显示FI和运动学习反应时间与数据集内delta显著相关,但与跨数据集delta无关。另一方面,eNKI仅使用数据集内delta显示出与CWIT抑制试验完成时间的显著相关性,但使用跨数据集delta发现与TMT完成时间显著相关。这些结果表明,预测中的细微差异会影响行为相关性,尽管两个预测高度相关(CamCAN:r=0.961,eNKI:r=0.962;图S6)。因此,无论使用数据集内还是跨数据集delta,delta-行为相关性都应谨慎解释。

       总之,在两种情况下,即行为相关性和delta估计中,我们观察到数据集内数据产生更好的偏差校正模型。然而,当没有足够的数据时,得到的模型可能无法校正年龄偏差,导致平均delta的高变异性(图S7)。因此,我们提醒从业者,并建议在应用之前仔细评估偏差校正模型,例如使用自助法分析。我们观察到,预测年龄的细微差异(数据集内与跨数据集)导致不同的行为相关性,这可能会质疑用于预测的工作流程的影响、用于计算行为相关性的分析方法(校正delta与协变量)及其相互作用。在实践中应用大脑年龄范式之前,未来的研究应该着重于解开这些错综复杂的问题。

4.5. 神经退行性疾病中更高的大脑年龄delta

      神经退行性疾病如AD、MCI和帕金森病(PD)伴有大脑萎缩。许多研究表明,MCI和AD患者的全局和局部GMV减少(Good et al., 2001; Karas et al., 2004; Fjell et al., 2014),在广泛的神经精神疾病中也是如此(Kaufmann et al., 2019)。因此,在MCI(3-8年)和AD(约10年)患者中报告了delta增加,即大脑看起来更老(Franke and Gaser 2012; Gaser et al., 2013; Varikuti et al., 2018)。我们通过应用性能最佳的工作流程,然后使用在HC上估计的偏差校正模型,评估了HC、EMCI、LMCI和AD患者的delta。我们发现,AD患者的大脑老化提前了约4.5-7年,LMCI患者提前了约2-3年,EMCI患者提前了约1年(时间点1-时间点2;表5)。此外,delta与MCI和AD患者的疾病严重程度和认知障碍相关的测量指标相关。因此,与之前的研究一致,大脑年龄delta证实了其基于结构MRI数据指示神经退行性疾病中大脑加速老化的潜力(Franke and Gaser, 2012; Varikuti et al., 2018; Cole et al., 2020; Eickhoff et al., 2021; Lee et al., 2021)。

      我们还表明,不同的工作流程可能导致AD患者的delta估计不同,从而导致与认知测量的相关性不同(表S7)。此外,患者组的平均校正delta取决于用于偏差校正的样本类型(数据集内或跨数据集)和大小(图S7)。因此,在比较不同研究时,结果应谨慎解释。

4.6. MAE与delta和delta-行为相关性的关系

      年龄预测模型的效用在于其捕获非典型老化的应用。然而,为了实现这一点,必须通过构建精确的模型来最小化特征空间和ML算法决策引起的方法学差异,以便得到的大脑年龄delta能够捕获生物学差异。最近的一项研究表明,过拟合模型(即训练准确性更高)的delta导致AD与CN之间的差异较小,而相对较低(训练)准确性的模型的delta捕获生物学差异(Bashyam et al., 2020)。然而,我们的分析和模型选择是基于嵌套交叉验证的。因此,我们的精确模型不能被认为是过拟合的。

      在健康样本中,较高的准确性(较低的MAE)与较高的delta-运动学习反应时间(CamCAN)和delta-CWIT抑制试验完成时间(eNKI)相关性相关。相比之下,在AD患者中,准确性较低(MAE较高)的模型显示出更强的delta-MMSE相关性。这一观察结果,即一些不太准确的模型在AD中能更好地捕获delta-行为相关性,与之前的一项研究一致(Bashyam et al., 2020)(图5和表S7)。在健康和患者队列中的这些对比观察结果使得难以根据delta-行为相关性制定模型选择策略。

      在AD中,对于32个工作流,校正的平均delta(使用CN样本校正,表示CN和AD之间的分离)范围为5.43至10.01年。一些中等精确度的模型,如S0_R4+LR(delta=7.27,MAE=5.91年),显示出AD的高delta和与AD量表的强相关性(表S7)。然而,具有最高delta的模型(173+RFR:delta=10.01,MAE:9.07年)显示出相对较弱的行为相关性。此外,表现相似的模型(S0_R4+LR:delta=7.27,MAE=5.91年 vs. S8_R4+KRR:delta=7.17,MAE=6.59年)显示出与行为的相关性有很大不同。这表明模型的MAE、delta和行为相关性之间存在非线性关系。

      基于这些结果,我们推测,在患者人群中使用充分正则化的模型可能是有益的,即使它们显示出较低的准确性。可能的情况是,正则化促使模型专注于包含典型老化相关信号的较少特定特征。这反过来可能导致较低准确性的模型(因为它降低了一些特征的权重),但也导致delta估计更能提供非典型老化的信息。

      总之,基于患者数据和delta-行为相关性比较模型是一个有希望但尚未解决的话题。特别是,目前尚不清楚使用哪种delta-行为相关性,以及模型在行为评分、样本和疾病之间的泛化能力仍然未知。需要进一步的研究来定义基于这些标准的适当模型选择程序。

4.7. 与brainageR的比较以及预处理和组织类型的影响

       使用与brainageR相同的训练数据,我们的工作流在三个数据集的MAE方面优于brainageR;CoRR(N=107;平均MAE=4.69 vs. 4.91)、OASIS-3(N=806;MAE=4.74 vs. 5.07)和MyConnectome(N=19;MAE=4.13 vs. 7.18)。然而,我们模型的偏差与brainageR相似或更高,其测试-重测可靠性较低(OASIS-3,N=36;CCC=0.82 vs. CCC=0.94)。总的来说,与brainageR相比,我们的工作流显示出较低的MAE,真实年龄和预测年龄之间的相关性较高,但年龄偏差也较高。这些差异可能是由预处理的差异以及brainageR使用三种组织类型而我们仅使用GM所驱动的。为了进一步研究这一点,我们进行了两个额外的分析。

      不同的VBM工具可以提供不同的GMV估计,影响估计的年龄相关性(Tavares et al., 2019; Antonopoulos et al., 2023)。在MAE方面(例如,IXI:MAE=4.85 vs. 6.25)、真实年龄和预测年龄之间的相关性(r=0.93 vs. 0.88,p<1e-6)以及年龄偏差(r=−0.21 vs. r=−0.40,p<1e-6)方面,CAT派生的GMV特征优于SPM预处理(两者都使用S4_R4+PCA进行特征提取,并使用GPR算法进行学习)(表7)。我们进一步发现,当使用SPM的三种组织类型(GM、WM和CSF)时,预测结果更好(IXI:MAE=5.08,r=0.92,p<1e-6,偏差:r=−0.27,p<1e-6)。这与之前的一项研究一致,该研究表明,与仅使用GM相比,同时使用GM和WM时性能略有提高(Cole et al., 2017)。来自不同组织类型的特征可能携带关于年龄的互补信息,提供更好的预测和更低的年龄偏差。许多先前的研究将GM和WM一起用作特征(Franke and Gaser, 2012; Cole et al., 2017; Cole et al., 2018, 2020),其他研究使用了所有三种组织类型(Monté-Rubio et al., 2018; Xifra-Porxas et al., 2021; Hobday et al., 2022)。CAT派生的GMV与SPM派生的三种组织类型表现相似,前者的年龄偏差略低(表7),表明在神经退行性疾病中具有临床相关性的GM适用于此任务(Karas et al., 2004; Wu et al., 2021)。需要进一步的研究来清晰地解开组织类型对此处研究的不同性能标准的影响。

5. 结论

      在设计年龄预测工作流程时,存在许多选择。在不同场景(数据集内、跨数据集、测试-重测可靠性和纵向一致性)下对相同数据的不同工作流程进行系统评估,揭示了特征表示和ML算法选择的重大影响。值得注意的是,体素水平的GM特征,尤其是使用4 mm FWHM核进行平滑并重采样到4 mm空间分辨率(S4_R4),优于分区水平的特征。此外,执行PCA不会影响预测性能,但它可以帮助减少计算资源。ML算法,包括径向基核的高斯过程回归、多项式核度数为1或2的核岭回归以及线性和多项式度数为1核的相关向量机,表现良好。总的来说,一些工作流在站外数据上表现良好,并显示出高测试-重测可靠性,但只有中等的纵向可靠性。与文献一致,我们发现在使用大样本对照组校正delta后,阿尔茨海默病和轻度认知障碍患者的delta更高。我们的结果为delta作为生物标志物的潜在未来应用提供了证据,但也提醒了关于行为相关性和偏差校正的分析设置和使用数据。本研究的发现可以为未来的大脑年龄预测研究提供指导。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: 以下是一个简单的天气预测系统的代码,使用了机器学习中的线性回归模型: ```python import pandas as pd from sklearn.linear_model import LinearRegression # 读取数据集 df = pd.read_csv('weather_data.csv') # 筛选出需要的特征和目标变量 X = df[['Temperature', 'Humidity']] y = df['Rainfall'] # 创建线性回归模型并拟合数据 model = LinearRegression() model.fit(X, y) # 输入新数据进行预测 temperature = float(input("请输入温度:")) humidity = float(input("请输入湿度:")) prediction = model.predict([[temperature, humidity]]) print("预测的降雨量为:", prediction[0]) ``` 这个代码假设有一个名为 `weather_data.csv` 的数据集,其中包含每天的温度、湿度和降雨量等信息。代码首先使用 Pandas 库读取数据集,然后筛选出需要的特征和目标变量。接着,使用 Scikit-learn 库中的线性回归模型创建了一个模型,并使用拟合数据进行训练。最后,用户可以输入新的温度和湿度值,程序将使用训练好的模型进行预测并输出结果。 ### 回答2: 机器学习天气预测系统代码的设计主要分为数据准备、特征工程、模型选择和训练以及预测四个步骤。 首先,我们需要准备用于训练的天气数据集。这些数据可以包括历史天气数据、气象站观测数据等。数据集中应包含观测的时间戳以及相关气象数据,如温度、湿度、气压等。可以使用Python的pandas库来处理和分析这些数据集。 接下来,进行特征工程的处理。我们需要对原始数据进行处理和转换,以提取出有意义的特征。可以根据经验或使用统计方法来选择对预测天气有影响的特征。例如,可以将日期时间数据转换为季节、月份或星期几等离散特征;对温度进行离散化等。这个过程可以使用Python的scikit-learn库来实现。 选择合适的机器学习模型是关键的一步。根据问题的性质,可以选择回归模型或分类模型。在天气预测中,常见的模型有线性回归、决策树、支持向量机和神经网络等。可以使用scikit-learn库提供的模型来进行训练和预测。 在训练之前,还需要对数据进行划分,将数据集分为训练集和测试集。训练集用于模型的训练,测试集用于评估模型的性能。 最后,使用训练好的模型进行天气预测。将待预测的特征输入到模型中,模型将输出预测的天气结果。可以使用Python预测函数进行预测。 以上就是一个简单的机器学习天气预测系统代码的设计流程。但请注意,实际开发中还需进行模型评估、超参数调优等步骤,以提高模型的准确性和可靠性。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值