1. 摘要
结构神经影像数据已用于计算大脑生物年龄的估计值(脑龄),该年龄与其他具有生物学和行为学意义的大脑发育和衰老测量方法有关。人们对脑龄的持续研究凸显了对基于大量健康个体数据进行预训练的强大且公开的脑龄模型的需求。为了满足这一需求,我们之前发布了一个发育性脑年龄模型。在这里,我们扩展了这项工作,以开发、验证和共享一个预训练的脑龄模型来覆盖人类的大部分年龄范围。为了实现这一目标,我们在从 35,683 名健康个体(年龄范围:5-90岁;53.59%为女性)的脑形态测量发现样本中系统地研究了七种站点协调策略、年龄范围和样本量对脑年龄预测的影响后,选出了表现最佳的模型。对预训练模型进行了跨数据集通用性测试,独立样本包括 2101 名健康个体(年龄范围:8-80岁;55.35%为女性),并在另一个样本包括 377 名健康个体(年龄范围:9-25岁;49.87%为女性)中测试了纵向一致性。这项实证检验得出以下发现:(1)当不应用站点协调时,根据形态测量数据进行年龄预测的准确率更高;(2)将发现样本分为两个年龄段(5-40岁和40-90岁)比其他方法能更好地平衡模型准确率和解释的年龄方差;(3)当样本量超过 1600 名参与者时,大脑年龄预测模型准确率趋于稳定。这些发现已被纳入 CentileBrain(https://centilebrain.org/#/brainAGE2),这是一个基于网络的开放科学平台,用于提供个性化神经影像指标。
2. 引言
先前的文献已经记录了从结构磁共振成像 (sMRI) 研究推断出的与年龄相关的大脑形态的广泛变化。机器学习算法可以对这些与年龄相关的变化进行建模,以估计大脑的生物年龄(脑龄)。从健康个体得出的脑龄估计值可用于建立典型发育和衰老的规范参考模式。对于每个个体来说,大脑年龄和实际年龄之间的较大偏差表明存在非典型发育或衰老。
影响任何脑龄预测工作流程准确性的关键参数包括形态测量输入特征和机器学习算法的类型、样本的大小和年龄范围以及在混合样本的情况下对站点效应的处理。输入特征包括体素数据,或通过基于图谱的分割降维获得的数据或统计方法(例如主成分分析)。还有多种用于计算大脑年龄的算法,包括传统方法,例如线性和贝叶斯模型、基于树和核嵌入的模型以及通常称为深度学习网络的人工神经网络。对这些算法在 sMRI 得出的大脑年龄估计准确性上进行比较评估的研究共同表明,传统方法除了计算效率更高之外,还优于深度学习网络。
我们之前已经表明,具有径向基函数 (RBF) 核的支持向量回归 (SVR) 优于参数和非参数、贝叶斯、线性和非线性以及其他基于核的模型,特别是因为它对极端异常值的弹性。我们采用该算法基于 5-22岁健康青少年的形态测量数据建立了一个发育性大脑年龄模型,并通过一个致力于提供个人层面神经影像学测量模型的网络平台免费向科学界提供该模型(https://centilebrain.org/#/brainAGE )。在这里,我们扩展了我们以前的工作,构建了经过实证验证的大脑年龄预测模型,并可以更好地覆盖人类的大部分寿命。为此,我们汇总了 35,683 名健康个体(年龄 5-9岁)的大脑形态测量数据作为发现样本,以及 2102名健康个体(年龄 27.74岁)的独立样本数据作为复制样本。我们评估了年龄和样本组成对模型性能的影响,因为对于将这些参数整合到大脑年龄模型中的最佳方法尚无共识。众所周知,站点协调策略会显著影响大脑年龄模型的性能。此外,大脑年龄研究要么集中于青少年,要么集中于中老年人。因此,在涵盖大部分生命周期的样本中,可靠的大脑年龄估计所需的工作流程仍不清楚。为了弥补这些知识空白,我们使用不同的站点协调策略并通过重新采样发现模型来生成不同大小和年龄范围的子集,通过实证评估了 SVR-RBF 算法在我们的发现样本中的性能。然后在复制样本上测试生成的模型的跨样本性能和纵向一致性。我们详细概述了我们的方法,而代码和性能最佳的模型可以在我们的专用网络平台上免费获取(https://centilebrain.org/#/brainAGE2)。
基于神经影像数据的年龄预测被广泛用于计算个体化发育或衰老速度指标。相对于实际年龄,脑龄较大的成年人更有可能出现负面的健康和认知结果,因此建议在临床护理中采用脑龄指标。在儿童和青少年中,大脑年龄较大或较小的作用仍然是人们感兴趣和研究活动的焦点。
在此背景下,本研究以两种不同的方式为该领域做出了贡献。首先,开发的模型可以免费访问,这是一个网络平台,设计时只需要最少的计算技能或基础设施即可从任何样本生成大脑年龄数据。这种大脑年龄计算模型为来自不同背景的研究人员赋能,促进合作创新并加速发现。其次,稳健且可推广的大脑年龄模型有望提高不同研究的可重复性,并为大脑年龄计算提供标准化方法。
3. 方法
3.1 被试
不同的独立样本用于发现、复制和纵向一致性。这些样本包括来自澳大利亚、东亚、欧洲和北美的汇总多地点 sMRI 数据。发现样本包括 35,683名健康个体。复制样本共包括 2101 名健康个体(55.35%为女性,年龄范围 8-80岁)。纵向一致性样本包括参与西南纵向成像多模态研究 (SLIM) 和昆士兰双胞胎青少年大脑研究 (QTAB) 的 377 名健康个体(年龄范围:9-25岁;49.87%为女性)的数据。仅纳入扫描时没有精神、医学和神经系统疾病和认知障碍的参与者的高质量形态测量数据。
3.2 脑形态学特征
使用 FreeSurfer 图像分析中的标准流程从全脑 T1 加权图像中提取形态特征,共得到 150 个形态特征,这些特征在先前的预测大脑年龄的模型中被广泛使用。这些包括Desikan-Killiany 图谱测量的皮质厚度 ( n = 68 )、皮质表面积( n = 68 )和 基于 Aseg图谱的区域皮质下体积 ( n = 14 )。
3.3 脑龄模型的评估
3.3.1 核心要素
-
由于已知大脑形态测量存在性别差异,因此所有评估的大脑年龄模型都是针对性别的。评估方法对两种性别是相同的。
-
所有模型都使用上面描述的相同的150个输入特征。
-
所有模型均采用 SVR-RBF,我们将其作为我们的首选算法,因为与其他机器学习算法相比,我们已经证明了它在准确性、计算效率和对异常值的鲁棒性方面具有良好的性能。这一选择得到了对多种算法进行比较评估的独立研究的支持。
-
所有模型的主要性能指标是平均绝对误差(MAE),它表示大脑年龄和实际年龄之间的绝对差异,以及大脑年龄和实际年龄之间的相关系数 (CORR)。
-
年轻人的大脑年龄通常被高估,而老年人的大脑年龄则被低估。为了应对这种偏见,我们遵循 Beheshti 及其同事的做法,实施了一种稳健的方法来调整这种与年龄相关的偏见 。然而,由于年龄偏见校正后的指标通常反映出更高的准确率,即使对于性能较差的模型也是如此,因此我们主要关注未校正的模型性能。
3.3.2 分析工作流程
图1说明了生成优化的性别特定模型的步骤。对于所有模型,超参数调整(C和sigma)均在发现样本中执行,使用网格搜索方法在10倍交叉验证方案中重复五次。在每次交叉验证中,90%的发现样本用于训练模型,10%用于测试模型参数;随后,使用从交叉验证过程中确定的最佳超参数在整个发现样本上重新训练模型。如后续章节所述,首先,我们测试了三种不同的策略来处理站点效应。后续程序中使用的站点协调策略是根据其卓越的性能而选择的,这由发现样本中最低的样本内交叉验证 MAE(MAE CV)和最高的 CORR(CORR CV)表明。在复制样本中(分别称为MAE R和 CORR R )和纵向一致性样本中,具有最低复制 MAE 和最高复制 CORR 的模型被选择为首选模型。
图1. 脑龄模型优化流程图:使用FreeSurfer进行分析并按性别对样本进行分层后,研究进行如下:(1)使用发现样本评估站点协调策略和年龄范围的影响。该分析得出最佳的站点协调策略。(2)使用独立复制样本进一步研究年龄范围的影响。该分析的结果决定了最佳年龄段和最终模型。(3)使用独立纵向一致性样本评估预先训练的最优模型的纵向一致性。
3.3.3 发现样本的站点效应和年龄范围评估
我们将发现样本划分为不同的年龄段后,评估了七种站点处理策略,如下所示:(i)一个年龄段,包含整个样本年龄范围(5-90 岁);(ii)九个年龄段,每个年龄段覆盖连续的 10 年间隔,即年龄 ≤ 10 岁、10 < 年龄 ≤ 20 岁、20 < 年龄 ≤ 30 岁、30 < 年龄 ≤ 40 岁、40 < 年龄 ≤ 50 岁、50 < 年龄 ≤ 60 岁、60 < 年龄 ≤ 70 岁、70 < 年龄 ≤ 80 岁和 80 < 年龄 ≤ 90 岁;(iii)四个年龄段,每个年龄段覆盖连续的 20 年间隔,即年龄 ≤ 20 岁、20 < 年龄 ≤ 40 岁、40 < 年龄 ≤ 60 岁和 60 < 年龄≤ 80 岁; (iv) 三个年龄段,每个年龄段覆盖连续的30 年间隔,即年龄 ≤ 30 岁、30 < 年龄 ≤ 60 岁和 60 < 年龄≤ 90 岁;(v) 两个年龄段,每个年龄段覆盖连续的 40 年间隔,即年龄 ≤ 40 岁和 40 < 年龄≤ 90 岁。对每个年龄段分别应用七种站点处理策略,以使用以下方法对站点进行数据残差化:(i) Combat-GAM;(ii) 不保留年龄变异性的CovBat;(iii) 保留年龄变异性的 CovBat;(iv) 子采样最大均值距离算法 (SMA); (v) 不变条件变分自动编码器 (ICVAE);(vi) 广义线性模型;(vii) 没有站点协调。对于 Combat-GAM,年龄被指定为模型中的平滑项,而经验贝叶斯估计用于站点效应,没有自定义平滑项的边界。ComBat-GAM 是使用 Python脚本实现的。CovBat 方法是使用 R 脚本实现的。SMA 方法是使用 Matlab实现的,以最大样本为目标站点,符合 Wang 等人的建议,ICVAE 是使用 Python实现的。为了防止数据泄露,在交叉验证过程中,协调过程分别应用于训练和测试数据集。具有最佳 MAECV和 CORR CV值的方法和年龄划分被考虑用于进一步评估。
3.3.4 重复样本中场地效应和年龄范围的评估
复制样本按年龄段进行划分,类似于发现样本,并应用预先训练的模型。产生最高 MAER和 CORR R值的年龄段划分被确定为首选年龄段。
3.3.5 最小样本量估计
发现样本被随机分成 30个性别特定子集,范围从 200 到 6000名被试,增量为200,不重复。在每个年龄段中,使用 10倍交叉验证(重复5次)评估优化的性别特定模型对样本大小的稳健性(就 CORRCV和 MAE CV而言)。根据第3.3.4节,对每个首选年龄段分别进行此分析 。
3.3.6 纵向一致性
用于测试纵向一致性的样本包括总共 377 名被试的 T1 加权扫描,扫描两次,平均间隔为 1.89 (0.56) 年。该样本也按照第 3.3.4节中的发现和复制样本分为首选年龄段。在每个年龄段中评估了第二次扫描和第一次扫描之间 MAE 和 CORR 的百分比变化。
4. 结果
4.1 站点和样本年龄范围
图2显示了不同站点协调方法的交叉验证模型性能。为简单起见,我们展示了 40 岁年龄段的男女平均结果。对于两种性别,与其他六种站点协调方法相比,省略站点校正在获得最低 MAE CV值和最高 CORR CV值方面表现出色。因此,在后续所有分析中均使用了未采用站点协调的模型。
图2. 站点协调方法对发现样本不同年龄段重复交叉验证得出的模型性能的影响。每个条形代表七种站点处理方法之一。CORR,脑龄与实际年龄之间的相关系数;MAE,脑龄与实际年龄之间的平均绝对误差。
对于年龄范围更广的年龄段模型,CORR 和 MAE 通常更高。换句话说,这样的模型解释了更多年龄方面的差异,但准确性较低。因此,为了在 CORR 和 MAE 之间取得平衡,我们选择了以 40 年为连续间隔的双箱分区(即 5-40 年和 40-90 年)。图3展示了这两种性别的这些结果。通过采用这种方法,我们成功地将两个年龄段的性别中相对较低的 MAE 与相对较高的 CORR 结合起来。具体来说,以40 年间隔情况下,平均 MAE CV和 CORR CV分别为 3.55(1.17)年和 0.79(0.10),平均 MAE R和 CORR R分别为 5.28 年和 0.68。
图3. 将针对发现样本的不同年龄段预先训练的模型应用于复制样本的相应年龄段后得出的性能指标。40 年间隔年龄段中两性平均的 CORR 值为 0.68;整个样本年龄范围的 CORR 值为 0.86。40 年间隔年龄段中两性平均的 MAE 值为 5.28 岁;整个样本年龄范围的 MAE 值为 8.52 岁。CORR 是脑年龄与实际年龄之间的相关系数;MAE 是脑年龄与实际年龄之间的平均绝对误差。
年龄偏差调整通常分别将发现样本中的CORR CV和 MAE CV提高了 79.67% 和 35.56%,并将复制样本中的 CORR R和 MAE R提高了287.06% 和 41.79%。
4.2 样本量的影响
图 4说明了样本量对发现和重复样本的影响,使用预先训练的模型,这些模型在 30个性别特定子集中进行了测试,参与者人数从 200人到 6000人不等,增量为 200人,不重复。在发现样本中,CORR CV随着样本量的增加而提高,直到 1600 名被试,此后趋于稳定;另一方面,MAE CV随样本量的变化较小,在 1000 名被试左右趋于稳定。同样,在重复样本中,CORR R增加,MAE R随着样本量的增加而下降,直到达到 1600 名被试,此后趋于稳定。
图4. 模型性能与发现样本中两个年龄段(5-40岁和40-90岁)样本量的关系。每个年龄段的模型参数是通过对发现样本进行随机重采样(不重复)得到的,生成 200-6000 名被试的子集。结果在此处显示为性别平均值。CORR,脑龄与实际年龄之间的相关系数;MAE,脑龄与实际年龄之间的平均绝对误差。
4.3 纵向一致性
图5说明了使用纵向一致性样本,在每个年龄段中预训练模型的稳定性。结果表明,使用两年龄段划分(即5-40岁和40-90岁)的模型在纵向数据上实现了最佳一致性。平均而言,在纵向一致性样本的第一次扫描中,年龄偏差调整分别使 CORR 和 MAE 提高了63.50% 和 30.54%;在纵向一致性样本的第二次扫描中,年龄偏差调整分别使 CORR 和 MAE 提高了73.39%和20.87%。
图5. 纵向数据中的模型性能。左图显示第一次和第二次 MRI 扫描的 CORR 和 MAE 值,右图显示第二次扫描与第一次扫描相比的 CORR 和 MAE 百分比变化(%)。结果是通过使用模型生成的,该模型已在每个年龄范围划分的发现样本上进行训练,然后应用于纵向一致性样本。CORR,脑龄与实际年龄之间的相关系数;MAE,脑龄与实际年龄之间的平均绝对误差。
4.4 数据和模型的可用性
我们的专用门户网站免费提供最佳模型参数,可应用于开放科学背景下的任何用户指定的数据集。除了预先训练的性别特定模型外,该网站还提供教程和代码(https://centilebrain.org/#/tutorial4)。
5. 讨论
人们越来越重视个体化神经影像学测量(例如脑龄)的潜在转化价值,它可用于追踪与典型大脑发育和衰老的偏差。关于从健康个体中获得的形态测量得出的脑龄模型的文献表明,性能存在异质性,这种异质性是基于所使用的特定特征、所采用的算法、对部位效应的处理、样本量和年龄分布的方法差异。本研究的目的是提供一个基准资源,供科学界用作脑龄的规范参考。拥有这样的资源至少可以实现四个重要目标。首先,它使跨研究可用于计算脑龄的方法和模型得以协调。其次,它使无法访问大型规范数据集的研究人员能够在自己的数据集中生成可靠的脑龄估计值。第三,它支持脑龄研究的严谨性和可重复性。第四,结合我们的发育脑龄模型,该模型也可通过我们的网络平台获得,提供涵盖人类大部分寿命(5-90岁)的模型,从而满足从事发育或老龄化研究的研究人员的需求。
经过系统的实证评估,我们选择了 SVR-RBF 作为关键算法,并在本研究中确定了模型的最佳站点处理方法以及在大部分生命周期中脑年龄计算的最佳年龄分布。这种详细的评估是必要的,因为先前的多项研究表明,站点协调策略以及样本年龄分布和大小会影响模型性能。与之前的报告一样,我们发现样本的年龄范围、模型的 MAE 以及脑龄与实际年龄之间的相关系数之间存在反比关系。年龄范围较窄的样本的 MAE通常较低,这是因为当预测的脑龄接近样本的平均实际年龄时,误差最小。同时,样本的年龄范围越窄,大脑年龄与实际年龄之间的相关性就越低。先前的报告还表明,样本量越大,大脑年龄的模型准确度通常越高。我们在此证实了这一观察结果,并且我们还表明,在超过 1600 名被试的样本中,这种关系趋于稳定。这一发现对于评估其他现有模型的稳健性和规划未来研究特别有用。
本文提出的模型表明,当将寿命样本划分为两个连续的年龄段(5-40岁和 40-90岁)时,可以实现MAE 和 CORR 之间的最佳平衡。5-40岁年龄段女性的年龄偏差校正 MAE 和 CORR 值分别为3.53 和 0.83,40-90 岁年龄段女性的年龄偏差校正 MAE 和 CORR 值分别为4.45和0.86。在男性中,5-40岁年龄段女性的年龄偏差校正 MAE 和 CORR 值分别为3.60和0.84,40-90岁年龄段女性的年龄偏差校正 MAE 和 CORR 值分别为 4.09和 0.87。这些值完全在其他评估健康个体大脑年龄的不同计算方法的研究报告的范围内。例如,More 及其同事报告了4至8年之间的 MAE 值范围。
我们认识到,大脑形态特征并不是唯一可用于推导脑龄估计值的神经影像学测量类型。其他研究使用了其他神经影像学模式或多种模式的组合。虽然对于该领域来说,拥有一系列可以适应各种科学问题的计算脑龄的选项很重要,但脑形态学数据的广泛可用性和获取和提取的相对容易性,促使使用此类数据的脑龄研究流行并占主导地位。
总之,我们提出了经过实证验证的脑龄模型,可以适用于使用生命周期大部分数据的研究。我们概述了导致这些模型的方法选择,以及它们在样本内和样本间以及纵向上的表现。
参考文献:Brain-age prediction: Systematic evaluation of site effects, and sample age range and size.