摘要:脑年龄是脑健康和相关疾病的一个强有力的生物标志物,最常从Tl加权磁共振图像推断。大脑年龄预测的准确性通常在2-3年的范围内,这主要是通过深度神经网络实现的。然而,由于数据集、评估方法和指标的差异,比较研究结果是困难的。为了解决这个问题,我们引入了脑年龄标准化评估(BASE),其中包括: (i) 一个标准化的Tlw MRI数据集,包括多站点、新的未见站点、测试-重测试和纵向数据;(ii) 相关的评估方案,包括重复的模型训练和基于一套综合的性能指标测量准确性;(iii)基于线性混合效应模型的统计评估框架,用于严格的绩效评估和交叉比较。为了展示BASE,我们综合评估了四种基于深度学习的脑年龄模型,评估了它们在使用多站点、测试-重测试、未见站点和纵向Tlw MRI数据集的场景下的性能。
1. 引言
脑年龄是通过脑磁共振成像(MRI)对生物年龄的估计,它已成为神经健康和衰老的重要生物标志物。评估大脑年龄涉及使用健康人群的输入Tlw MRI来训练机器学习模型进行年龄预测,然后在训练数据集之外应用该模型来检测不同健康状况下潜在的大脑年龄差异。例如,在患有阿尔茨海默氏痴呆症、多发性硬化,精神分裂症,以及其他疾病,如2型糖尿病、人类免疫缺陷病毒(HIV),肥胖者和维生素d缺乏者。
使用深度学习(DL)模型进行大脑年龄预测将很快在机器人研究中得到应用。然而,不同的评估协议,如使用不同的性能指标、不同的验证数据集、年龄跨度、受试者数量、Tlw预处理管道和后处理年龄偏差校正,使得研究之间的比较具有挑战性,如果不是不可能的话。虽然对新站点数据的模型评估有些常见,但对纵向数据集的评估以评估捕获与老化相关的线性趋势的能力却相当罕见。即使在进行此类评估的研究中,预测的一致性要么是视觉评估,要么是基于横断面指标,这似乎是不充分的。此外,使用不同权重初始化训练的模型或使用测试-重新测试设置的模型尚未得到系统评估。
为了弥补这些差距,我们提出了脑年龄标准化评估(BASE),旨在建立一种标准化的方法来评估脑年龄预测模型,整合最佳实践并克服现有方法的局限性。本文的组织结构如下:第2节对相关工作进行了回顾;第3节描述了BASE数据集、性能指标和评估方案,以及用于评估脑年龄模型的统计框架。第4节和第5节分别详细介绍了模型和使用BASE进行的评估;最后,第六节和第七节分别给出了讨论和结论。
2. 相关工作与贡献
最近在脑年龄预测方面的研究工作主要集中在引入新的深度学习架构,多样化的训练策略,包括级联学习和模式上的模型集成,将输入的Tlw图像修改为编码对比度和形态测量信息的双通道表示,通过仅利用图像配准到公共空间来简化预处理,并优化采样策略,以实现在整个年龄范围内均匀采样的训练集。这些研究的一个普遍缺陷是缺乏一个共同的、标准化的评价方法。
目前评估大脑年龄模型的方法主要集中在对比传统机器学习模型的性能上。在这些研究中。模型通常在同一组核磁共振成像上进行训练和测试。这样的评估可能无法完全捕获各种混杂因素,如受试者和扫描仪的可变性,从而忽略了模型性能的几个关键方面。尽管More et al.最近的综合研究深入了这些方面,但它主要关注传统的机器学习模型,从而忽略了深度学习模型固有的某些方面,例如用不同权值初始化训练的多个模型预测的可重复性,以及训练和测试数据集之间预处理中潜在变化的影响。
脑年龄模型的准确性通常是通过计算所有测试对象的平均绝对误差(MAE)来评估的,这表明生物年龄和预测年龄之间的差异。然而,MAE可能会呈现出误导性的画面,特别是当测试数据包含在训练数据中被过度代表的年龄范围时,导致更精确的预测。因此,MAE对特定年龄子区间绝对误差的可能增加(或减少)不敏感。一些研究试图通过按年龄间隔报告MAE来规避这一问题。显然需要一个稳健性指标来区分紧密拟合模型和松散拟合模型,后者在所有年龄段都表现出一致的精度,而松散拟合模型则表现出可变的精度,特别是在整个年龄跨度中代表性不足的年龄区间。
报告健康受试者脑年龄预测准确性提高的方法学研究往往缺乏严格的统计评估。相反,对患病人群的研究通常涉及统计评估。采用t检验和/或方差分析进行随机比较。值得注意的实践包括使用线性混合效应模型(LMEM)对阿尔茨海默病、轻度认知障碍、精神分裂症或抑郁症和多发性硬化症的受试者使用脑年龄作为自变量,这样一个巨大的统计框架及其量化。对于健康受试者数据集的脑年龄评估尚未建立。
年龄预测的一致性对于纵向主体内评估至关重要,特别是在跟踪疾病进展或偏离规范衰老轨迹时。虽然在提供广泛的公共数据集和基准测试平台方面取得了重大进展,其中包括多站点训练和测试数据集以及新站点数据,但涉及健康受试者的纵向数据集的研究仍然代表性不足。目前的研究通常采用视觉方法,通过在线性图上绘制纵向预测来评估纵向一致性。Dunas等人在研究中使用了定量纵向性能评估指标