利用机器学习和功能连接预测认知能力

研究发现,尽管机器学习方法可以从功能连接中预测认知表现,但特征权重的重测可靠性普遍较低,限制了对认知神经生物学过程的理解。增大样本量、使用Haufe变换和非稀疏特征选择能适度提高可靠性,但预测精度和可靠性之间存在权衡。建议未来研究应关注特征权重的可靠性,而不仅仅是预测准确性。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

使用机器学习方法,可以从个体的脑功能连通性中以适度的准确性预测认知表现。然而,到目前为止,预测模型对支持认知的神经生物学过程的洞察有限。为此,特征选择和特征权重估计需要是可靠的,以确保具有高预测效用的重要连接和环路能够可靠地识别出来。我们全面研究了基于健康年轻人静息状态功能连接网络构建的认知性能各种预测模型的特征权重-重测可靠性(n=400)。尽管实现了适度的预测精度(r=0.2-0.4),我们发现所有预测模型的特征权重可靠性普遍较差(ICC<0.3),显著低于性别等显性生物学属性的预测模型(ICC≈0.5)。较大的样本量(n=800)、Haufe变换、非稀疏特征选择/正则化和较小的特征空间略微提高了可靠性(ICC<0.4)。我们阐明了特征权重可靠性和预测精度之间的权衡,并发现单变量统计数据比预测模型的特征权重稍微更可靠。最后,我们表明,交叉验证折叠之间的特征权重度量一致性提供了夸大的特征权重可靠性估计。因此,如果可能的话,我们建议在样本外估计可靠性。我们认为,将焦点从预测准确性重新平衡到模型可靠性,可能有助于用机器学习方法对认知的机械性理解。

1. 简介

预测个体的认知能力和行为特征仍然是神经科学的主要目标。利用应用于功能磁共振成像(fMRI)数据的机器和深度学习技术,可以以中等精度预测人类认知的方方面面,包括智力、注意力和工作记忆。目前的研究报告交叉验证了预测和实际认知测量之间的相关性,r=0.1-0.5不等,取决于具体的认知测量、预测模型和其他因素。目前的研究重点是通过增强功能磁共振成像建模、特征工程、深度学习和更大的样本来提高预测精度。因此,预测精度已经成为神经影像学中区分认知能力预测模型好坏的最决定性因素之一我的模型比你的好,因为它更准确!

尽管一些预测模型可以提供实用价值,无论它们是否可以解释(例如,在临床环境中预测疾病的结果),但准确预测智力本身并不是最终目标。即使未来的进步带来了卓越的预测准确性,但实际、伦理和其他方面的考虑可能会限制该技术在经常被炒作的现实应用中的使用,如智力测试、认知筛选工具等。在认知神经科学中,预测神经成像模型的一个更切实、现实和直接的目标是解释支持认知的神经生物学过程,并测试理论认知模型。尽管许多自上而下和自下而上的认知模型已经被开发出来,但这些模型背后的大脑区域、回路、网络和动态神经过程只被部分了解。

本研究的目的是评估智力和认知功能预测模型估计的静息状态功能连通性特征权重的重测可靠性。我们考虑了不同维度的特征空间,从广泛的权威大脑网络之间的100个连接,到包含超过10,000个连接的高分辨率地图集定义网络。在不同的预测模型、不同的样本量和Haufe变换的使用等现实条件下评估预测精度和特征权重重测可靠性。我们还比较了单变量统计数据的可靠性,并研究了显性生物属性(如性别)的预测模型是否比认知模型产生更可靠的特征权重。最后,我们提供了最大化特征权重可靠性的建议,并阐明了可靠性和预测精度之间的权衡。我们强调,我们的结论和建议不一定适用于诊断状态、疾病结局和其他临床变量的预测模型。在这里,我们专注于健康年轻人的认知预测建模。我们希望我们的工作能鼓励研究人员在评估认知表现预测模型时,同时考虑特征权重的可靠性和预测的准确性。

2. 方法简述

2.1 数据

最小预处理静息状态功能磁共振成像(fMRI)数据来源于人类连接组项目(HCP) S1200发布。受试者为年轻健康成人(n=1113),年龄在22至37岁之间。在连续两天对每位参与者进行两组静息状态功能磁共振成像(REST1和REST2)。所有图像都是在定制的西门子Skyra 3TMR扫描仪上使用多波段回波平面成像序列获取的。进一步的图像采集细节可以在其他地方找到(Smith et al., 2013)。完成所有四次运行和认知评估的参与者被纳入本研究,最终样本为958人(平均年龄28.7 ±3.7岁,453名男性)。

2.2 功能连接估计

预处理的fMRI时间序列在四次测试中被时间串联,为每个个体产生大约一小时的数据。四次运行的串联确保了足够的数据,能够对功能连通性进行稳定的评估。使用已建立的皮层(Glasser等人,2016a)和皮层下图谱(Tian等人,2020)绘制全脑功能连接矩阵。具体来说,fMRI信号分别在每个皮层(N=360)和皮层下(N=16)区域的所有顶点和体素上进行平均。使用Pearson相关系数估计每对区域时间序列之间的时间依赖性,得到每个个体的376*376维的对称功能连通性矩阵。对连通性矩阵进行r- z变换(Fisher变换),然后对上三角形进行向量化,得到(376*375)/2=70,500个连通性特征。虽然皮尔逊相关系数是功能连通性最广泛使用的衡量标准,但其他衡量标准可能会产生改进的预测模型。

在互补分析中,连通性特征也来源于先前使用独立成分分析(ICA)和双回归方法绘制的全脑功能网络。由15、24、50、100、200和300个成分(节点)组成的空间尺度被映射,为当前研究提供了105到31,350个功能连接的特征空间。

2.3 认知测量

认知表现的测量方法有:(i)流体智力(fIQ);(ii)晶体智力(cIQ);(iii)认知的综合测量(IC-Cognition)。

2.4 交叉验证

训练交叉验证的预测模型来预测fIQ、cIQ和IC-Cognition。设计了一个半分割交叉验证程序来估计组成这些模型的特征权重(即beta系数)的测试-再测试可靠性(图1)。交叉验证过程控制了遗传亲缘性,这是由最终样本中的958个个体中的420个家族定义的。具体来说,为了确保测试集和训练集的独立性,我们从400个家庭的随机集合中,从每个家庭中随机选择一个个体,产生了400个基因不相关的个体。选取的400个个体被进一步细分为两个组,每组200人,分别定义训练和/或测试集。为了尽量减少抽样偏差,这个抽样和半分割过程重复了100次,产生了100对独立的训练测试数据分割。从每个随机样本中剔除20个家庭,确保了一个家庭中唯一的成员(n=90)没有在所有100对训练-测试中被选中。性别比例在半分割对之间无显著差异。

图片

图1 交叉验证程序来估计特征权重、测试、重测试可靠性和预测模型的目录。

2.5 预测模型和预测精度

训练四种常用的线性回归模型来预测fIQ、cIQ和IC-Cognition(图1c):(i)最小绝对收缩和选择算子(套索);(ii)脊回归;(iii)核脊回归;(iv)基于连接体的预测建模(CPM)。我们没有考虑深度神经网络和非线性模型,因为它们不允许直接解码预测特征和目标变量之间的关系。正则化和模型训练在补充材料中有描述。简单地说,超参数优化采用嵌套的20倍交叉验证,以最小化套索、脊和核脊回归在每次训练分割中的交叉验证误差。连续认知变量采用最小二乘回归,性别预测采用逻辑回归。使用外部训练分割中的所有个体,选择在所有内部测试折叠中产生最小平均误差的超参数来计算beta系数。同样,CPM使用嵌套的20倍交叉验证来寻找最佳p值阈值,以最大化功能连接强度之和与认知测量之间的正或负关联。

如前所述,对每个认知变量和性别,在每一对100个训练测试数据拆分中分别计算预测精度和测试-重测可靠性,从而得到100个样本外和200个样本内(每半拆分100个)的特征权重测试-重测可靠性估计和200个样本外预测精度估计。

2.6 Haufe变换

在评估测试-重测信度之前,对beta系数应用Haufe变换。这种转换提高了特征权重的可解释性,并确保重要特征的权重很高。

2.7 随机化

认知测量在个体间随机排列,从而使认知和功能连接之间的联系随机化。对每个数据分割进行独立的随机化处理,并使用随机化数据重新训练预测模型。每组的测试数据都不是随机的。这产生了100个重测可靠性样本和200个预测准确性样本,以建立机会水平期望。采用双样本t检验来评估观察到的预测准确性和可靠性是否显著高于机会水平预期。对每个认知变量和性别的所有预测模型,错误发现率(FDR)控制在5%的阈值。

3. 结果

我们试图确定预测效用(即特征重要性)是否可以可靠地分配给静息状态功能连接特征,包括认知性能的预测模型。为此,我们在一组健康的年轻人中评估了使用流体智力(fIQ)、结晶智力(cIQ)和整体认知表现(IC-Cognition)预测模型估计的特征权重的测试-再测试可靠性。从队列中反复抽取400个(或800个)个体样本并分成两半(即半分成交叉验证;见的方法)。使用各种机器学习方法为每个半分割训练预测模型,并使用类内相关系数(ICC)评估两个半分割之间的特征权重-重测可靠性。

我们发现,利用静息状态功能连通性强度(图2a)可以以中等精度(r=0.2-0.4)预测fIQ、cIQ和IC -认知,这与之前的文献一致。然而,在所有机器学习模型和认知性能测量中,估计的特征权重始终显示出较差的可靠性(ICC<0.3)(图2b)。相比之下,性别预测的特征权重在几个模型中显示出中等的可靠性(ICC>0.6)(图2b)。因此,与性别等明显的生物属性不同,认知表现不能可靠地定位于定义预测模型最重要特征的特定连接。通过使用大量单变量方法、更大的样本量、更大/更小的特征空间和/或更复杂的预测模型,是否可以提高特征权重-重测可靠性。但首先,我们更详细地研究了400个个体(每半分割200个)的名义样本量和包含70,500个静息状态功能连接的特征空间的预测准确性和特征权重的可靠性。

图片

图2 在400个不相关个体中使用半分割交叉验证估计预测精度和特征权重测试重测信度

3.1 预测精度

如图2a所示,在所有认知测量中,预测和实际认知表现之间的相关系数显著超过了机会水平的预测。

3.2 特征权重测试-重测可信度

采用ICC对特征权重重测信度进行评估。ICC在100个半分割对的特征权重(即beta系数)之间计算,产生100个ICC值。如图2b所示,ICC值显著超过了所有认知测量的机会水平预期。虽然显著大于概率,但特征权重-重测可靠性在所有三种认知测量中都很差(ICC<0.3),无论预测模型如何,且显著低于预测性别的连通性特征的特征权重可靠性。在考虑的预测模型中,核脊回归的ICC是最高的,但核的使用也增加了ICC值在半分割对之间的可变性。

特征权重可靠性差不是由于超参数优化和模型拟合的随机性。在同一组个体中使用随机初始条件进行重复模型拟合,得到套索回归和岭回归高度一致的beta系数。此外,当所有预测因子都是连续变量时,套索和岭回归的特征权重是唯一的,定义良好的(如功能连接强度)。

3.3 Haufe变换

接下来我们研究了Haufe变换对特征权重重测信度的影响。这种转换通常应用于特征权重,以提高其可解释性。我们发现,虽然转换平均提高了半分割对之间的ICC值,但ICC的可变性显著增加(图2c)。ICC值再次显著超过所有认知测量的机会水平预期。性别预测的体重可靠性也得益于转换。我们得出的结论是,Haufe变换平均而言可以提高特征权重的可靠性,但变换后增加的可变性可能会潜在地导致不可预测的性能。

3.4 多变量显著性检验

在发现相对较差的特征权重测试重测可靠性后,我们下一步研究了质量单变量显著性检验是否比预测建模更可靠。为每个连接独立计算检验统计量和相应的未校正p值,以检验功能连接强度和认知性能之间不存在关联的原假设。然后,使用基于网络的统计量(NBS)和错误发现率(FDR)对70,500个连接集的多次测试进行校正,分别将家族错误率和FDR控制在0.05。这些方法重复了100对半分割的配对,使用上面描述的相同的随机抽样程序来生成每对配对。然后使用Dice系数来评估每个半分割对之间重要连接的重叠程度,类似于使用ICC来计算特征权重。这为每个认知测量产生了100个Dice系数。如图2d所示,我们发现Dice值在所有认知测量中都非常小,而性别差异在半分割对之间显示中等的Dice值。此外,在所有认知测量中,至少一个连接的零假设被拒绝的半分割对的比例相对较小。相比之下,在测试性别差异时,所有半分割配对的零假设都被拒绝。我们得出的结论是,与预测建模相比,大规模单变量显著性检验并不能对控制认知表现的联系做出更可靠的推断。

我们还研究了在大量单变量显著性检验中为每个连接计算的单变量检验统计量(即t统计量)的重测信度。再次使用ICC评估半分割对之间的重测信度。我们发现,在当前的研究中,单变量统计数据显示了最大的测试重测可靠性(图2b,标记为Raw的小提琴图)。这表明基于统计显著性阈值或分类特征选择(即套索)的二分法不利于可靠性。然而,值得注意的是,通过避免二分法实现的测试重测信度的改善是适度的,所有认知测量的ICC仍低于0.4。

3.5 样本量的影响

虽然样本量(n=400)与许多神经影像学研究相当或更大研究了认知的预测模型,我们下一步的目标是测试在更大的样本量下,预测的准确性和测试-再测试的可靠性是否会提高。为此,我们将样本量增加了一倍(n=800,每一半分成400个),并重复上述实验(补充图1)。虽然不再可能确保所有800个个体在基因上不相关,但同一家族的成员被分配到训练集或测试集,而不是两者都分配。在图3中,每个小提琴图的左叶(n=800)和右叶(n=400)比较了两个样本量之间的预测精度和特征权重的重测可靠性。对于大多数预测模型,与n=400相比,n=800的预测准确性(图3a)和特征权重测试-重测可靠性(图3b)显著提高,尽管在大多数情况下改进不大,并且在性别预测方面最显著。双倍的样本量也略微提高了haufe转换特征权重的可靠性(图3c)和大量单变量显著性检验的可靠性(图3d),尽管这些改进仅在性别预测中显著。总的来说,这些结果表明,样本量的大幅增加导致特征权重的可靠性相对适度的改善。

图片

图3 使用400人和800人的半分割交叉验证的比较

3.6 特征权重可靠性的样本内估计

之前的研究表明,本文研究的预测模型具有相对较高的特征权重可靠性,尽管可靠性评估并不是大多数之前研究的核心焦点。为什么我们发现特性权重的可靠性大幅下降?在上述所有实验中(图2和图3),测试-重测信度都是在样本外进行评估的,而之前的大多数研究都考虑了跨交叉验证折叠和迭代的beta系数在样本内的一致性。因此,我们下一步的目标是明确比较样本内和样本外估计的预测精度和特征权重-重测信度。我们专注于岭回归。

我们发现,在三个交叉验证过程中,预测和实际认知表现之间的相关系数具有高度可比性,在数据样本之间的准确性估计具有可比性(图4a)。然而,相对于所有认知测量和性别的样本外估计,特征权重-重测可靠性的样本内估计大幅膨胀(图4b)。样本内的ICC表明特征权重的可靠性极好(ICC>0.98),而样本外的估计表明认知的可靠性较差,性别预测的可靠性一般。我们得出结论,特征权重可靠性的样本内估计可以被夸大,如果可能的话,应该使用样本外估计。

图片

图4 样本内和样本外估计特征权重-重测信度的比较 

3.7 预测模型之间特征权重的一致性

接下来,我们利用ICC评估了四种预测模型(套索、脊和核脊回归和CPM)之间的特征权重的一致程度。ICC值在所有模型对之间计算,使用相同的半分割(样本内ICC)或不同的半分割(样本外ICC)对对中的每个模型。图5显示了样本外(下三角形+对角线)和样本内ICC平均值(上三角形),平均超过100对半分割对。在n=400(图5a)和n=800样本量(图5b)时重复此过程。我们发现脊回归和核脊回归的特征权重最一致,特别是在性别预测方面,但在三个认知测量(样本内ICC>0.8)。Lasso与岭回归(样本内ICC>0.4),而CPM在认知和性别预测方面与三种回归模型的一致性较低(样本内ICC<0.2)。Haufe变换提高了模型之间特征权重的一致性(补充图2)。

图片

图5 不同预测模型之间特征权重的一致性

3.8 局部分析

在上述所有实验中,特征权重-重测信度都是全局量化的,而不考虑组成特征空间的连接和区域之间可能存在的信度差异。因此,我们接下来研究了fIQ岭回归预测中特征权重可靠性的区域变化。

我们观察到,在Split 1和Split 2之间,求和特征权重的区域差异很大(图6a)。Haufe变换略微减少了半分割对之间的变化,尽管对特定区域的特征重要性的可靠归因仍然具有挑战性(图6b)。例如,颞叶皮层在分割1中与正特征权重相关,而前额叶皮层和纹状体在分割2中权重更正(图6b)。在负权重区域也有类似的变化,其中腹内侧前额叶皮层在分割1中负权重最多,但在分割2中顶叶皮层和颞极区域与负特征权重相关(图6b)。相反,在性别预测的情况下,特征的重要性可以更可靠地归因于特定区域和典型的大脑网络(图6c,d)。例如,男性最突出的预测特征是强烈的网络间连接,特别是默认模式网络区域和其他网络区域之间的连接,如背侧注意网络、视觉和腹侧注意网络。

图片

图6 连接特征权重的区域表示

3.9 特征空间维度的影响

最后,我们研究了特征空间维数对预测精度和特征权重rest-retest可靠性的影响。

我们发现,预测和实际认知表现之间的相关系数随着特征空间维度的增加而增加,尤其是在性别预测方面,而fIQ、cIQ和IC-Cognition的相关系数则较低(图7a)。然而,通过增加特征空间维度而获得的预测精度的提高是以较差的特征权重-重测可靠性为代价的(图7b)。我们得出的结论是,在功能连接映射的大脑分区和分辨率的选择提供了一种方法,在预测准确性和特征权重可靠性之间进行内在权衡。

图片

图7 预测精度和特征权重测试重测可靠性之间的权衡由特征空间维度仲裁

4. 讨论

尽管从个体的静息状态功能连通性可以可靠地预测认知表现和智力,但我们发现特征权重-重测的可靠性很差。因此,将预测重要性可靠地映射到特定的连接、区域和网络具有挑战性。较差的特征权重可靠性限制了机器学习方法用于解释认知的神经生物学机制和测试理论认知模型的程度。我们发现,大样本量、某些特征权重转换和粗空间分辨率映射的连通性略微提高了特征权重的可靠性。然而,即使在最有利的设置下,特征权重对之间的ICC值仍然很差(ICC<0.4)。相比之下,使用相同的特征来预测个体的性别产生了更可靠的特征权重,这表明在预测认知表现时,特征本身的完整性(即静息状态功能连通性测量)并不完全是糟糕的特征权重可靠性的原因。

虽然为可解释的机器学习提供了障碍,但不能可靠地将预测效用定位到特定的连接特征,可以为认知的神经基础提供线索。

经典显著性检验研究试图绘制复杂行为特征和静息状态功能连通性之间的群体水平联系,其重复性有限,支持了这一假设。

在整个研究中,半分割样本之间的特征权重的一致程度是从测试-再测试信度的角度来解释的。然而,特征权重之间较低的ICC值也可以被解释为特征选择不稳定和解非唯一性(机器学习视角)、抽样可变性(统计视角)和测量效度较差(认知心理学视角)的证据。在机器学习中,特征选择的不稳定性是一个众所周知的问题,训练样本的小变化可能导致特征权重的大变化。然而,我们证实了超参数优化和模型拟合过程中的随机性引入了最小的不稳定性。在测量效度方面,人类连接组项目中用于测量流体智能和结晶智能的工具得到了验证和广泛使用。基于这些原因,我们相信我们的发现在测试-再测试的可靠性方面是最合适的。

我们确定了预测准确性和特征权重可靠性之间的权衡。具体来说,通过使用更高分辨率的分组地图集来增加特征空间维数可以提高预测精度,但以较差的特征权重可靠性为代价。提高的可靠性可能是由于在更广阔的空间范围内平均fMRI信号提供了更高的信噪比,导致了更准确的功能连通性测量,相比于从高分辨率的碎片地图集得到的。因此,如果可以容忍预测精度和空间分辨率的下降,那么低维连接组映射可以对特征重要性进行可靠的解释。

最后,值得注意的是,除了询问特征权重之外,还可以通过其他方式推断特征的重要性。可以从特征空间中排除某些特征,并使用减少的特征空间重新训练预测模型。预测精度的任何降低都可以间接衡量被省略特征的重要性。虽然这种方法尚未被广泛用于功能连接,可能是由于特征空间维数高,但Cropley等人(2021)系统地从基于灰质形态的脑年龄预测模型中省略了特定的脑叶。他们发现,省略额叶区域降低了大脑年龄差距和精神病症状之间的关联强度,为额叶在精神病理学中的重要性提供了证据。从这种层次模型比较方法推导出的特征重要性估计的可靠性仍有待研究。

5. 结论

认知神经科学中基于神经成像的预测模型正在蓬勃发展。然而,为了预测而预测是一个很容易陷入的陷阱,我们希望我们的工作能促使人们将注意力从最大化预测精度转移到建立基于可靠特征权重的可解释模型上来。对于目前基于静息状态功能连接的认知性能预测模型,特征的重要性难以可靠估计,这意味着将预测效用本地化到特定的连接和环路具有挑战性。这限制了用神经生物学机制解释预测模型的程度。我们发现,更大的样本量、更粗的分区地图集和非稀疏特征选择/正则化可以略微提高特征权重测试重测的可靠性。如果可能的话,我们建议估计样本外的可靠性。更常见的方法是在交叉验证折叠和迭代之间度量特征权重的一致性,提供了夸大的特征权重可靠性估计。

参考文献:Machine learning prediction of cognition from functional connectivity: Are feature weights reliable?

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值