将个体间大脑结构的差异与行为联系起来

个体间行为差异的大脑结构有什么关联? 十多年前,结构MRI的进步为解决这个问题开辟了有前景的新途径。最初研究方向的选择导致了概念和方法上的重大转变,复制危机揭示了传统方法的局限性,其中包括在健康个体的小样本中寻找神经解剖学的局部测量和行为变量之间的联系。鉴于这些方法上的问题,以及日益增长的对心理构造与大脑区域一对一映射想法的怀疑,目前已经出现了新的观点。这些观点不仅包含了大脑结构-行为关系的多元性质,并促进了泛化性,包含了通过个体间差异的潜在维度来表示大脑结构和行为数据之间的关系。在这里,我们研究了健康人群大脑结构-行为关联研究的过去和现在,并解决了当前的挑战,提出了未来研究的开放性问题。本文发表在Nature Reviews Neuroscience杂志。

介绍:

科学家们一直热衷于寻找人与人之间在性格特征或智力等行为方面差异的大脑结构基础。在过去的20年里,结构成像的进步为人类行为的特定方面与健康人群的局部大脑形态特征之间的联系提供了广泛的报道。这些文献反过来又成为一种经验,在此基础上,关于个体间变异性的进一步调查和概念理论仍在建立之中,例如对男性和女性之间局部大脑形态差异的解释或心理测量中个体间变异的遗传基础。然而,最近复制危机撼动了认知神经科学的这一经验性支柱。因此,在本文中,我们回顾了基于大脑结构的神经影像学测量的大脑结构-行为(BSB)关联的主要发展和有影响力的研究,并描述了随后逐渐出现的复制危机。我们认为在这一工作体系中,主要的潜在限制因素是:小规模的样本和采样变异性,以及大脑体素和顶点与行为变量的多重共线性注:多重共线性指线性回归模型中的解释变量之间由于存在精确相关关系或高度相关关系而使模型估计失真或难以估计准确)。这些考虑与概念上的转变相吻合,即从脑区和行为特征之间的一对一映射转向多变量的观点,这可以在未来得到更好的解释。然后我们讨论这一观点的两个方面。首先,我们考虑使用预测方法将多个大脑变量映射到一个特定的行为变量。第二,我们描述了多变量方法,旨在通过考虑两组数据、大脑变量和行为变量的多变量性质来确定大脑-行为的潜在维度。接下来,我们将考虑这些新趋势中可能存在的陷阱和限制,以及对除了理想样本外仍能进行结论复制的挑战。最后,我们讨论了符合当前方法论挑战的解释陷阱。

局部脑-行为图谱

人类的一个显著特征是我们在行为方面,如人格和认知方面有明显的个体间差异性。过去的二十年里,神经成像提供了在活体中对个体样本进行大脑形态测量的可能性,从而可以检查与个体特征变异性相关的大脑结构特征。特别是,目前的神经成像技术很容易提供整个大脑局部灰质体积和皮层厚度的估计(Box 1)。

正如Kanai和Rees在2011年回顾的那样,采用这些技术后,关于BSB关联的报告迅速涌现,主题从常见的认知功能,如工作记忆,到用标准问卷测量的社会和情感特征,如人格特质或冲动,甚至是用与特定理论或研究目标有关的特定工具(即,问卷或行为范式)评估的各种行为概念。

如图1所示,复杂的行为方面,如政治倾向和Facebook好友数量,与局部灰质体积(即大脑特定部位的灰质体积)有关。归因于量化大脑结构的MRI技术的发展,目前已经出现了大量的BSB(大脑结构-行为)文献。

复制危机

神经科学和心理学领域最近出现了广泛的复制危机,一些作者甚至认为,大多数已发表的神经科学文献可能是不可复制的。在该背景下,传统BSB关联研究的可复制性同样受到了质疑。对几个已发表的BSB相关的确认性复制研究的发现不支持几乎所有被检查的关联(图2);事实上,对于大多数关系,确认性贝叶斯假设检验表明支持无效假设的证据。在这些令人担忧的发现之后,本报告的作者和其他人就复制研究的局限性进行了生动的讨论。同样地,我们发现,即使使用相同的分析流程,在一个动力良好的样本中,认知控制的标准测量与灰质体积之间的显著相关性也不能在第二个人口统计学上相似的样本中复制(图2)。

Box1 |大脑结构的神经影像学估计

灰质体积或密度通常采用基于体素的形态测量法进行评估。这项技术的目的是在宏观差异被忽略后,通过检查脑组织的局部组成,定量比较个体间的T1加权扫描。首先,通过将每个解剖扫描分割成不同的组织类型并归一化为模板来实现。将单个扫描映射到模板的结果可以通过使用空间变形参数调整灰质图像来解释。通过该方法,可以估计个体局部灰质的体积。相比之下,由于大脑皮层灰质具有片状结构,通常使用基于表面的技术来估计皮层厚度。在体积空间中对图像进行最小限度的预处理并为每个体素分配神经解剖学标签(例如,白质,皮层)后,通过迭代过程描绘出白质/灰质和灰质/脑膜表面。一个顶点是表面上相邻三角形的点相交的地方,那么在一个给定的顶点的皮层厚度被定义为该顶点的最终白质和皮层表面之间的距离。然后,可以在每个顶点处的一组个体上研究顶点的结构属性,例如皮层厚度以及表面积和曲率。除了这些对灰质结构的宏观结构或形态估计外,髓鞘形成也可以使用T1/T2比率来量化,进而与心理测量数据相关,如个性化分数。此外,弥散性MRI的发展也促进了白质特性在个体水平上的量化。经过特定的伪影校正步骤,弥散张量成像技术可用于从弥散数据中得出白质特性的局部测量(即在每个体素)。最流行的指标是分数各向异性和平均扩散率,前者反映了扩散各向异性的程度,后者被用作扩散总体程度的指标。流行的灰质测量方法,如灰质体积、密度和皮层厚度,用于探测大脑的宏观结构特征;而流行的基于扩散的指标,如分数各向异性和平均扩散率,则更多地挖掘白质的微观结构特性。我们在这里的重点是研究大脑形态特征的个体间变异性,所以我们着重于前者的测量。然而,值得注意的是,白质微观结构特征的个体间变异性和行为之间的关系在科学文献中受到了极大的关注。最后,随着T1加权扫描以外的MRI图像的获取在大样本组群中越来越普遍,大脑微观结构的其他特征也可以得到。这些特征的例子包括,但不限于,使用定量多参数映射的灰质中髓鞘密度的指标,以及使用弥散加权MRI的定量建模的细胞皮层结构的指标。与最流行的结构指标类似,这些结构估计的个体间可变性与年龄和心理测量数据的个体间可变性有关。总的来说,从MRI数据中得出的结构估计范围将能够对局部大脑结构的个体间可变性进行丰富的、多变量的描述,而这种描述反过来又与行为的个体间可变性有关。

可以认为,在这些复制尝试中对特定感兴趣的区域的关注可能会限制所观察到的关系的可复制性。为了解决这一问题,我们采用探索性和验证性方法,对一系列心理测量变量进行了BSB关联的可复制性的广泛评估,并从一个单一的大型健康成人组群中计算了不同的可复制性指数。该结果不仅表明发现显著的关联相对不太可能,而且证明了在个体的强有力子集中发现的关联很难在来自相同群组的第二个匹配子集中复制(图2)。这些结果表明,大脑结构和行为测量之间的联系存在发表偏倚,其中无效发现可能非常频繁,但这样的结果通常不会被报道。比较重要的发现往往受到更多的关注,但其可复制性非常差。

值得一提的是,这些令人担忧的发现主要涉及基于体素的形态测量。这种方法被批评为局部神经解剖学的相对粗糙的方法(Box 1),导致了弱关联的低可复制性。这就提出了一个问题,即其他方法是否可能导致更容易复制的BSB关联。最近的研究表明,先前关于性格特征与皮层厚度、表面积或白质完整性之间关系的报道,同样不能在大规模组群中复制。在一个高质量的健康年轻人的大型数据集中,皮层厚度估计和一系列行为测量之间的关联的可重复性很差,这证实了这些发现。因此,BSB相关的复制危机似乎与特定的脑结构MRI测量无关,而是一种包括灰质和白质体积测量以及基于表面的测量的普遍危机。总之,这些发现与更普遍的关于神经影像学发现的复制的担忧产生了共鸣。在更大的背景下,皮层厚度估计的扫描仪间变异性仍然是控制的重要因素。此外,我们还讨论了分析软件的有效性和可靠性。事实上,十年前就曾报道过某一软件的特定版本存在很大的差异。在不同的皮层厚度处理流程评估时,认知因素和皮层厚度之间的关联的低可复制性也已被证明(图2)。然而,对于常用的估计流程的最新版本,尽管存在局部估计失败的可能,但已经证明了相对可靠的皮层厚度及其个体间变量的厚度估计。因此,尽管神经解剖学计算工具的用户群体在一定程度上可以放心,但在BSB研究中,许多有关扫描仪间变异性、跨版本变异性和处理流程变异性的局部效应的问题仍然值得关注。

除了对磁共振成像技术量化个体大脑结构的这些担忧之外,行为测量的心理测量特性也应该仔细考虑。差异心理学中的智力和人格特质等核心概念的测量普遍在不断的发展,并且被科学地进行了评价,这都旨在提高其效度和信度。相比之下,更多针对研究领域特定的结构可能显示出较差的效度和可靠性,和/或统计分析的分布不充分。例如,政治取向变量缺乏变化可能是导致生物多样性复制尝试失败的一个因素(图2)。因此,当我们研究使用MRI技术得出的复杂心理学概念和大脑评估时,应牢记来自大脑和行为方面的变量的有限有效性、可靠性和分布,这些限制因素在一定程度上导致了BSB研究中的复制问题。总之,在一系列行为测量和各种流行的大脑结构估计中,BSB关联的可复制性受到了质疑。重要的是,这不仅适用于先前发表论文的结果的复制,而且适用于独立样本中的研究结果的复制,甚至适用于给定组群中的次抽样。然而,这些结果不应该导致以下的结论,即大脑结构和行为表型之间的联系是不可实现的。相反,他们认为这种关联的程度可能相对有限,目前的标准方法无法可靠地捕捉到。

图1| 局部大脑形态与行为特征或表现之间的映射示例。

a, b |社会网络规模和政治取向与局部大脑灰质体积的映射。平方根变换后的Facebook好友数与右内嗅皮质灰质体积呈线性正相关(a部分)。同样,保守政治倾向程度与右杏仁核灰质体积呈线性正相关,与前扣带皮层灰质体积呈负相关(b部分)。

c, d |心理理论表现(STOP)和音乐表现到局部皮层厚度的映射。自发性思维理论方案(STOMP)的表现与右侧额下叶皮层(rIFG)、右侧颞顶交界处(rTPJ)和内侧前额叶皮层(mPFC)的皮层厚度呈负线性关系(c部分)。左顶沟和右听觉皮层加工相对音高的能力与皮层厚度呈线性正相关(d部分)。r,相关系数值。

图2|结构性大脑行为关联的可复制性差。

a|尝试复制先前研究的两个大脑结构-行为(BSB)关联。以前的研究报告称,右侧杏仁核的灰质体积与Facebook好友的平方根转换数量以及政治取向之间存在显著的线性关系,但重复调查未能找到这些关系的证据,两种情况下的相关系数r值都接近于0。

b|在一个独立的组群中进行复制尝试,以报告背侧运动前皮层灰质体积与试验表现之间的关联。尽管在第一个样本(组群1)中发现了显著的负相关,但在另一个组群(组群2)中的复制尝试并没有显示出显著的关系。

c|知觉智商与灰质体积之间关联的组群内复制尝试。甜甜圈图外圈反映贝叶斯因子指数;内环反映了基于P值和基于符号的复制指数。尽管最初发现了显著的关联,但在考虑P值和关联方向时,100个样本的复制尝试显示出较高的复制失败率(内环中显示82%的复制失败),相应地,强有力的证据表明没有关联(66%显示在外环中)。

d|局部皮层厚度与三种不同皮层厚度处理流程中工作记忆成分得分的相关性(CIVET, BrainSuite和CPM)。基于r和t值的显著关联在不同处理流程中使用的空间位置上有所不同,这表明,使用不同分析选择的不同关联调查提供了不同的关联模式。r,复制样本的相关系数。H0,零假设(无关联假设);H1,备选假设(关联的假设)。

小的效应量,功率和假阳性

最近使用英国生物库(UK BioBank)等大型数据集进行的重复研究和探索性研究表明,在健康人群中,用标准心理测量工具测量的大脑结构和行为方面之间关联的效应量可能非常小,相关系数大约在0.1左右。找到真正正确的效应的概率(例如,局部大脑结构和行为测量的估计之间的联系)—也就是实验的力量—与效应大小和样本量直接相关。

因此,在小样本中发现真实效应的概率相对较低。更准确地说,由约200-300名参与者组成的样本似乎在健康参与者中识别可靠的BSB关联的能力较低。最近的调查指出,在标准认知测试(如智力测试)和心理量表(如人格和精神病理学量表)中,需要更大的约1000名参与者的组群才能可靠地识别BSB关联。尽管有上述发现,但构成当前文献的绝大多数BSB研究通常基于相对较小的样本(n < 200)。因此,可以合理地说,在这些研究中报告虚假或非结论性结果的可能性非常高。虽然导致虚假关联的确切因素可能仍然是一个调查主题,但可以假设统计上显著关联的报告可能受到数据挖掘和相关实践的影响。在概念层面上,这些问题意味着我们必须谨慎对待BSB的发现和建立在这些基础上的神经科学理论。反过来,在方法学层面,特定大脑-行为关联的小效应量和数据挖掘的假阳性风险意味着需要大量的组群和替代方法来深入了解健康人群的大脑结构和行为方面之间的关系。

多元结构脑行为图谱

多元分析是另一种方法。从认识论的角度来看,人类大脑结构和行为功能之间映射关系的第一个科学证据来自损伤研究。通过展示相对局部病变和相对特定行为缺陷之间的因果关系,第一个损伤研究支持了大脑区域和各自行为功能之间相对特定映射的概念,例如海马体和情景记忆之间。然而,过去的几十年里,人们重新审视了这种最初的一对一映射概念,以支持多对多的观点,特别是在健康人群的功能和结构神经成像研究蓬勃发展之后。因此,心理测量工具所探究的复杂行为方面的潜在机制,如今认为并不是模块化地局限于单个大脑区域,而是依赖于分布式神经网络。换句话说,尽管根据临床人群的生殖损伤研究,某些区域的结构完整性似乎是一个行为域的正常功能所必需的,但正常功能范围内的表现变化似乎依赖于一系列大脑区域的结构变化。

然而,在健康人群中寻找行为测量的结构相关性通常是利用统计单变量方法进行的,这种方法是在大脑中局部地进行与行为变量的关联的统计检验,或对每个体素或大脑区域使用一般线性模型,或使用与先验定义的感兴趣区域(或多个区域)的相关性方法。考虑到小的效应量和这些关联在大脑中通常被认为的空间分布性质,单变量方法似乎特别局限于捕捉复杂的大脑行为关系。此外,这些方法没有考虑到在结构协方差模式中很容易看到的不同大脑体素/顶点或区域之间的相互依赖性。由于这些原因,在探索性研究中,其目的是确定与给定心理变量(或一组这样的变量)相关的大脑结构特征,多变量技术提供了一种考虑到大脑数据的多变量性质的替代方法。

为了评估多个大脑区域(或体素/顶点)与给定行为变量的联合协方差,可以使用多元回归方法。在这个框架中,我们将描述如何通过使用正则化多元回归形式的预测技术,将大脑结构特征联合映射到特定的行为测量。然而,在研究大脑和行为时,值得考虑的是,多种测量来源之间的相互依赖关系不仅存在于大脑变量(体素、顶点或区域)之间,而且存在于行为测量之间。从流行病学的角度来看,在人群协方差框架中,行为测量之间的共线性是可以预期的,因为可以假设年龄、教育或文化等独特因素共同影响行为表型的许多方面(见下文)。此外,从心理学的角度来看,不同认知测量之间的共线性可以假定发生,因为这些不同的测量涉及到潜在的过程或隐藏的结构。后一种考虑通常证明在心理科学中使用因子分析来提取潜在因素(也称为合成变量)是合理的。然后,可以使用单变量(如传统的体素型一般线性模型)或多变量方法将导出的合成行为变量或多个变量单独映射到大脑结构。这里将不讨论前一种方法,因为从概念的角度来看,可以假设健康人群心理测量数据中的合成变量反映了广泛的行为维度(如“流体智力”),因此可以预期它在认知过程方面是多重决定的,不会映射到特定的大脑区域。这种合成变量与大脑结构特征的映射可以使用下一节所述的预测框架进行。

从大脑结构模式预测行为变量。一个预测框架能够将多个大脑结构特征联合考虑,映射到一个单一的行为变量。具体地说,就是将一组大脑变量用作目标行为变量的预测器。如上所述,这个感兴趣的变量可以是一个测量变量,如问卷上的特定分数,也可以是一个合成变量,如基于特定理论定义的综合分数(例如,智力综合分数)或基于数据分解计算的负载分数。例如,当从应用临床问题或心理科学的立场出发时,展示大量大脑结构特征和所调查变量之间的关系可以有助于后者的神经生物学验证。简单地说,如果参与者在这个变量上的得分可以从大脑结构数据中预测出来,那么就可以假设大脑结构特征和行为变量之间的关系。预测能力通常在具有交叉验证设置的机器学习框架内进行评估(Box 2)。使用该框架,从训练样本中获得的拟合大脑-行为关系的可泛化性使用验证或未见数据集(注:没有用于训练的数据集)中的预测准确性进行评估(Box 2)。

近年来,基于大脑的行为表型预测在神经成像界享有相当大的热度。出于概念上的原因(行为功能源于大脑区域之间的功能相互作用),大多数心理测量预测研究都集中在大脑静息态的功能连接(或结构和功能连接特征的组合)。因此,基于大脑的预测的主要发展最初来自于功能(和/或扩散)研究。然而,过去的十年中,一些研究已经使用交叉验证方法评估了基于估计的大脑结构与行为变量的预测。这些针对BSB关联的机器学习方法的先驱实施通常在假设驱动的框架中进行,以证明特定大脑区域结构(如杏仁核或纹状体)与特定认知、情绪或个性方面之间的关联。在一个相关的框架中,在第一次预测性BSB研究中使用的样本量通常相对有限(低于200名参与者,100名参与者甚至50名参与者),这导致了夸大的效应量,类似于单变量研究中的观察结果。更通俗地理解,随着从神经影像学特征预测表型方法应用的全球趋势,由于有限的组群规模、受数据泄漏或双重影响的不适当的交叉验证方案,由预测准确性指标反映的预测能力被高估了。因此,在有限组群(< 200名参与者)中进行的第一项研究通常报告了非常乐观的预测准确性(根据预测和观察到的行为得分之间的相关性),范围从0.40到0.74。然而,当样本量变大(> 200名参与者)时,在验证数据集(图3)中观察到较低的预测精度:在0.11至0.28的范围内。

从基础神经科学的角度来看,对健康人群大脑结构行为的适度预测可能表明大脑结构的个体间可变性对行为的个体间可变性的贡献有限。然而,应该注意的是,总的来说,基于大脑结构的行为预测性能类似于当使用大脑的功能特征(通常是功能连接估计)时实现的性能。同样,尽管在多模态框架中将结构特征与功能特征相结合通常会获得比在大型组群中关注单一模态更强的预测能力,但综合方法的预测能力仍然相对有限。因此,在健康人群中,基于神经成像标记的行为预测模型仍然有其自身的挑战,无论所探测的神经生物学方面(大脑结构或功能连接)如何。对于这些全球性的挑战,大脑结构对行为表型预测的贡献仍然是一个重要的研究课题。初步调查表明,在使用健康成年人的相同数据集时,基于大脑结构特征的预测模型在某些行为评分的预测方面可能表现得与基于功能特征的预测模型一样好,甚至更好(图3)。从这些研究中还可以看出,当基于多模态数据进行预测时,在许多认知指标的预测中,结构特征(如表面积、皮层厚度和灰质体积)往往比功能特征具有更高的权重。尽管还需要进一步的研究,但大脑结构特征似乎是研究大脑-行为关系的重要信息来源。在下一节中,我们将进一步讨论在联合考虑一系列行为变量的同时探测这种关系的方法。

Box 2 |结构性大脑行为研究中的机器学习方法

从统计学的角度来看,类似于大多数神经影像学研究,大脑结构-行为(BSB)研究遇到了典型的N < p问题(即数据点的数量小于变量的数量)以及多重共线性问题,需要多变量分析和特征选择/缩减方法。大样本量可以在交叉验证的环境中正确评估多变量解决方案的普遍性和稳定性。这确保了报告的模式不是由依赖于样本的伪协变驱动的(注意:数据集内的交叉验证并不确保模式可以在完全独立的数据集中重复)。具体而言,典型相关分析(CCA)和偏最小二乘相关(PlSC)方法特别容易过拟合。当这种分析最初在数据集上运行时,效应量可能看起来很高,但在独立的数据集中,相关性通常要低得多。换句话说,过拟合可能会给人一种印象,即大脑和行为变量之间的关联比它们在独立的“保留”数据集中的关联要强得多。

因此,在交叉验证设置中,原始样本分为训练和测试(保留)子样本(或集合)。在CCA/PlSC方法中,多变量模式是基于训练集导出的,而保留集中的个体数据被投影到该训练集的权重向量。这种将数据随机分割为训练集和测试集的过程通常会重复有限的次数,例如10次。然后,通过总结(例如,平均)保留集上的样本外准确性来评估模型的泛化性。反过来,稳定性可以通过交叉验证的训练集中权重轮廓的相似性来评估。除了CCA和PlSC的标准版本之外,还为神经成像-行为数据集开发了其变体,旨在减少高维特征空间中的过拟合,并扩展分析范围以解决数据中的非线性(正则化扩展,如稀疏CCA/PlSC和内核CCA)。在这种情况下,为这些扩展方法确定最优参数(超参数调优)也需要交叉验证设置,这对大样本量提出了额外的要求。

类似的概念和限制同样适用于预测模型,其中多个大脑特征被用来预测一个行为变量。拟合模型的泛化性通过使用交叉验证方案进行评估,其中模型预测的行为得分与观察得分进行比较。因此,该模型被拟合在训练集中,并在训练和测试之间随机分割数据集一定次数得到的测试集中进行测试。对于CCA/PLSC的特定变体,一些预测算法需要超参数调整,这是通过嵌套交叉验证完成的,该过程同样需要大量样本。当模型的预测性能得到证明时,研究人员往往倾向于将分配给个别大脑特征的权重作为特征与行为变量之间关联重要性的指标。然而,由于特征的多重共线性,这种方法在多元框架中可能会产生危险的误导。因此,在对大脑行为关联模式的神经科学解释中,一般应保持谨慎,重点关注多变量框架中贡献最大的特征,无论是预测框架还是相关框架。

如上所述,这些方法通常用于研究临床样本中功能连接和行为表型之间的关系。对于CCA/PlSC方法,尽管样本量通常大于单变量研究(>100名参与者),但相对于被调查特征的数量,受试者数量仍然相对较小,这可能导致效应量膨胀。最近确实有研究表明,对于这些方法,效应量随着样本量的增加而减小(与单变量分析和预测方法报告的统计现象类似)。换句话说,报告的效应量可能经常被夸大,或者至少过于乐观。此外,由于大多数研究包括了一系列心理测量数据之外的表型变量(如生活方式和人口统计学变量),在这种多变量方法中,大脑行为关联的具体大小仍然不确定,尽管它被假定为小到中等(≤0.30)。鉴于先前大多数有助于讨论这一问题的研究都集中在功能连接或多模态大脑数据上,健康人群的大脑结构和行为之间的关联强度问题仍有待未来研究。

a |在人类连接组计划(HCP)的验证数据集中预测口语阅读识别性能。

上部:基于体素的灰质体积特征提取。在每个受试者中,每个体素的灰质的估计值被用作预测口语阅读识别得分的特征或预测因子。

中部:未见样本(注:没有用作训练的样本)的预测阅读分数与这些个体的实际阅读分数显著相关。

底部:由预测模型推导出的部分假定贡献区域(红色)。

b |典型模式将皮层厚度的个体间差异性与HCP行为变量的个体间差异性联系起来。

上部:行为测量与确定的厚度-行为典型相关分析(CCA)模式相关性最强。正相关的主体测量(红色)通常反映积极的特征,而负相关的测量(蓝色)涉及更多的消极行为方面。

下部:局部皮层厚度与识别的CCA模式之间的Fisher Z转换相关性。正相关(红黄色)主要出现在较低层次的感觉和运动区域,而负相关(蓝青色)主要出现在较高层次的认知大脑区域。

c |使用不同大脑结构和功能特征的心理测量变量预测模型的性能比较。通过决定系数评估模型性能(决定系数越高,预测精度越高)。对于一些心理测量变量(这里是认知功能和空间取向的综合得分),基于皮层厚度的预测模型比基于功能连接的预测模型表现出类似或更高的性能。“堆叠预测”(红色)指的是结合所有类型特征的模型。r,预测阅读成绩与实际阅读成绩的相关系数。

AUC,曲线下面积; PLO,Penn线定位测试;PMAT, Penn矩阵检验;SPCPT, Penn连续性能试验。

将表型变量映射到大脑结构数据。将多变量大脑特征映射到一个行为变量的补充方法可以通过“双重多变量方法”提供,其中一组大脑变量联合映射到一组行为变量。更具体地说,两组数据或数据块之间的协方差模式——这里是行为和大脑数据—可以沿着潜在或隐藏的维度进行总结,这些维度是大脑(例如几个大脑区域的灰质体积)和行为变量的线性(或非线性)组合。因此,这种双重多元的方法能够在由出现的不同维度形成的潜在空间中表现大脑结构和行为中个体间可变性的广泛模式。从概念的角度来看,由于同时考虑两组多元特征,除了可能出现新的结构-行为因素外,这种方法避免了把注意力集中在单一的先天行为方面,就像一棵树藏在森林里一样。此外,从数据科学或统计学的角度来看,这些方法在大脑层面和行为层面都考虑到了不同的变量可以代表冗余的可变性来源。

偏最小二乘相关(PLSC)和密切相关典型相关分析(CCA)是这种方法中最流行的技术。具体来说,这些技术通过搜索权重向量或方向,最大化了大脑变量和行为变量的线性组合之间的联系,这样,数据(例如,大脑和行为变量集)在获得的权重向量(或向量)上的投影具有最大相关性(CCA)或协方差(PLSC)。然后还可以检查每个变量集的权重或个体相关性的结果配置文件,从而深入了解形成关联的特征。因此,这些方法将大脑-行为关联的复杂本质分解为简约的重叠模式,分离大脑-行为关系的不同方面。例如,用这种方法在大量青少年样本中探索了“形态相似网络”中智商分数和个体间变异性之间的关系。因此,关注标准智力测量中的个体间差异揭示了两个潜在的维度,捕捉了不同大脑系统中的个体间差异,大致对应于语言和认知控制网络与视觉和记忆网络。

然而,一般来说,这种双多元方法已被更多地用于将大脑功能连接映射到行为表型,特别是在临床人群中。当关注一个大型健康组群(人类连接组计划(HCP))时,这种方法揭示了将大脑连接与人口统计学和行为联系起来的协方差的主要模式或维度。在同一组群中,更多关注大脑结构估计的后续数据驱动研究强调了大脑结构个体间变异在最初报告的群体模式/协方差维度中的重大贡献。特别是,在同一组群(HCP)中,用类似的CCA方法将大脑皮层厚度与一系列行为或生活方式测量相关联,复制了最初报道的静息态的功能连接的主要显著模式或维度。行为表型的主要维度描述了一个积极与消极的点,例如流体智力、词汇量和生活满意度(代表积极的特征)与行为攻击、烟草使用和认知失败(代表消极的特征)(图3),最初发现与功能连接有关,确实也出现在关注BSB关联时。有趣的是,相关的皮层厚度模式显示了皮层层次的明显分化,主要在低阶的感觉或运动区域呈正相关,而主要在高阶的大脑区域呈负相关(包括包含大部分默认模式网络的额叶、前颞叶和顶叶皮层)。双多元方法提供的这种模式表明,低阶和高阶大脑区域之间皮层厚度差异模式的个体间可变性可能与表型的个体间可变性密切相关。

当CCA应用于一大群青少年时,在儿科人群中观察到类似的模式。一般来说,通过研究发现,在健康的年轻人群中,额叶区域皮层厚度越高,似乎与更多的负面生活事件、较低的认知功能、更多的负面社会行为和增加的精神病理学有关。总之,最近使用数据驱动方法对大群体进行的研究结果表明,大脑结构中个体间差异的广泛模式可以可靠地与行为中的个体间差异相关。重要的是,这种BSB关联模式似乎与之前报道的功能连接-行为关联模式相似。这些发现进一步与多模态预测模型产生共鸣,根据该模型,大脑结构特征有助于预测行为变量。然而,当沿着跨越不同大脑特征的正面与负面的总结思维(注:人们观察、思考与表述某事物的“思维角度”,简称“维度”,正面思维指遇到问题接受并进行理智的评估与处理;负面思维指遇到问题进行逃避与否定)表达时,新兴的数据驱动模式可能显得相对简单,只能对大脑-行为表型关系提供非常有限的见解。或者,当发现多个更精细的维度时,从基本的神经科学观点出发,在不同的组群中建立他们的对应关系和他们的解释可能会带来一些概念上的挑战。总的来说,双多元模型中包含的变量范围越广,解释的挑战就越大。当使用高导数特征作为输入时,这种多元模型的解释和神经生物学有效性显然更加复杂。例如,基于图论的大脑结构测量特征及其转换特征可以用作PLSC分析的输入,或者有时从独立成分分析导出的功能连接网络中提取主成分(来自主成分分析),并用作CCA分析的输入。一般来说,应该记住,带有过度复杂分析的高度衍生框架可能会从神经科学的概念角度混淆我们的理解,并很容易退化为信息量不大的神经信息学方法。因此,完全数据驱动的方法的探索性本质仍然应该得到精心设计的BSB关联研究的补充,该研究具有明确的神经生物学理论和预测性效用评估。在下一节中,我们讨论健康人群中BSB关联面临的进一步开放式的一般性挑战,涉及它们的复制、它们与非大脑和行为变量的关系、它们对大脑病理学的推断,以及最后,它们的讨论超出了目前已知的专家科学界观点。

观点和挑战

从健康人群的关联到临床应用。在过去,如上所述,BSB相关性的研究在一开始就受到了局部病变与特定行为缺陷之间相关性的强烈影响。然而,后来发现,临床人群中这些研究表明的区域与行为的关系,并没有以其最简单的形式(即一对一映射)延伸到健康人群中个体间的BSB模式。如今,随着神经成像技术促进了对这些人群的BSB研究,逆向概念扩展的相关性也同样受到质疑。比如,在健康人群中发现的BSB模式在多大程度上相关,以及如何用于更好地理解临床人群中的脑-症状关系。这的确是一个不容小觑的问题。虽然承认机器学习技术在神经成像中的应用可能仍处于不成熟的阶段,但当采用纯数据驱动的方法时,这些技术所揭示的大脑行为关联模式并不容易与测绘大脑的相关文献相呼应。例如,有研究发现一组健康成年人的一般智力得分可以很好地使用成人组群中的小脑灰质体积(增强的NKI组群)和HCP组群中感觉运动皮质的皮层厚度测量来预测。尽管这些发现在未来需要“组群外”(见下文)复制,但它们目前突显出从健康人群中基于预测的神经科学发现到对临床人群的影响,科学道路仍然漫长而复杂。

同样出现了一个重要的问题,即健康人群中出现的个体间变异的潜在维度与临床人群中发现的BSB模式之间的关系仍然未得到有效的阐述。如前所述,CCA/PLSC方法经常用于确定将神经生物学模式与一系列症状或认知缺陷联系起来的维度。在这种情况下,亚临床/临床人群和健康人群通常是混合的,其假设是症状表达可以从精神病理学维度来概括,这些维度是健康人群大脑行为变异维度的延伸。然而,这一假设可能并不总是正确的,这将导致把临床和健康样本汇集在一起时出现人为维度,这一问题不仅涉及多元相关分析,而且在仅由多元数据驱动的框架中不太容易解决。因此,今后应注意这些潜在方面的广泛解释和影响。更具体地说,科学调查应该仔细评估个体间差异的潜在维度是否反映了临床人群中的脑症状/脑行为缺陷维度代表极端表达的生物易感性,或者这些正常维度是否反映了非常普遍但对大脑病理机制的推断有限的人口统计方面结论(如普通教育)。在下一节中,我们将进一步讨论概括性的挑战、建模混淆以及相关的解释问题。

绝对的样本外复制是一个公开的挑战。BSB研究中的复制危机不仅指出了此类调查中小样本的局限性,暗示了大量的发表偏倚,而且还强调了对BSB研究结果进行样本外复制的迫切需要。这要求在独立的数据集中尝试复制;这就是“群外”复制。然而,出于实际原因,在机器学习研究中,重点通常设置在数据集内的泛化(Box 2)。然而,这种做法并不能完全阻止统计模型捕捉数据集的特性。对于心理测量数据来说,这种陷阱非常可能出现,因为它们依赖于通常为特定背景下的特定人群开发的评估工具,其在不同亚人群中的有效性可能是变化的。此外,心理测量数据可能容易受到考官效应(注:晕轮效应,又称“光环效应”,属于心理学范畴,指人们对他人的认知判断首先是根据个人的好恶得出的,然后再从这个判断推论出认知对象的其他品质的现象。指在人际相互作用过程中形成的一种夸大的社会印象,正如日、月的光辉,在云雾的作用下扩大到四周,形成一种光环作用。所以,晕轮效应也可以称为“以点概面效应”,是主观推断的泛化、定势的结果)的影响。大脑结构的神经成像估计也容易受到扫描仪和序列效应的影响,因此心理测量学和神经成像数据都特别容易受到批处理效应的影响。

在这种情况下,绝大多数利用大量健康青年群体的研究往往集中在少数公开可用的数据集上。从上面的综述可以看出,针对健康人群的旨在大样本量和扩展行为表型的研究往往特别依赖于HCP数据集,这明显偏向于当前的文献。由于数据(和计算)资源有限,这些研究很少包括独立样本的复制。因此,评估标准和更高结构测量在多大程度上一致地映射到不同组群中相似的大脑结构模式,将取决于未来其他健康人群组群的可用性。在这方面,需要公开提供能够代表全世界人口的数据集。这些数据集需要多样化,不仅在地理方面,而且在其他人口和社会文化方面也需要多样化。这种努力将使概念复制成为可能,并促进关于影响大脑行为关系的因素的新发现。

协方差,混淆和明智的科学解释。当旨在了解大脑结构和行为表型如何相关时,明确定义混淆变量和中介变量是至关重要的。混杂变量或中介变量的标签应该依赖于先验假设,研究人员应该对这些假设进行仔细地表述或评估。例如,一方面,头部形态测量(即大小和形状)可能与大脑某些部分的结构估计的特定模式相关联(通过归一化到标准模板)。另一方面,它也可能与一些特定的行为模式间接相关(例如,女性通常头部较小,并被鼓励及早养成照顾他人的行为)。因此,头部和大脑的大小可以被认为是造成虚假大脑行为关联的潜在因素(例如灰质体积和照顾行为之间的关联)。

在一组健康成年人中,当包括一些结构测量在内的多模态大脑成分与一系列表型变量相关时,有几个成分似乎捕捉到了大脑大小(编码在灰质密度和皮层面积中)与性别、力量和耐力之间的基本关联,证明这种可能性是存在的。这就提出了一个非常实际的问题,即BSB关联在多大程度上会受到一般头部形态测量法的虚假影响。鉴于这一观点,头部形态测量应作为一个混杂变量加以控制。相比之下,当一个变量被假设为基于特定神经生物学假设的大脑行为关联的基础时,这个变量应该受到特别的关注,应该考虑通过调解方法来解开它的相关作用。这种情况的一个典型例子是年龄的影响。如果年龄越大,大脑某些部分的灰质体积就越小,从而导致认知能力下降,那么年龄就不应该被认为是一个混杂因素。然而,在最近的多变量研究中,很少制定和讨论关于混杂因素和中介因素的明确和有记录的假设。一系列变量通常被控制(如,扫描仪内做任务,以及扫描前的相关训练)或包含在多元模型中,而不需要对这些变量的作用进行任何先验和/或事后的概念考虑。对不同变量的调整或控制可以极大地改变结果的模式,有时是以意想不到的方式。例如,不同的大脑大小调整策略可能会潜在地导致大脑结构与行为的负面关联,研究人员应该意识到,对结果的解释需要受到这种调整的制约。

与此相关,人们普遍认为,即使在预测设计中,大脑行为协方差也不意味着因果关系。因此,一种关系的相关证据很少明确地作为因果关系提出。然而,科学界之外的信息传播—特别是通过有助于简化统计结果传播和大众传播的一般媒体—很少会被大家仔细考虑。科学研究人员本身可能会通过他们使用的术语来促进因果解释。虽然解释BSB关联发现的确切神经生物学机制尚不清楚,但使用的术语在某种程度上含蓄地传达了个体表现出的行为方面的想法,即“根深蒂固的”或“根深蒂固的生物根源”。这可以从Kanai和Rees在“人类行为和认知的个体差异的结构基础”中使用的术语中看出。也可以从“substrate”和“bases”的频繁使用中看到,它们在语义上与“foundation”相关。在最近的一项机器学习研究中,进一步说明了现象方向性的先验假设:“一种简单的解释是,结构差异导致功能变化。然而,我们不应该排除这种可能性,即在静息态的功能连接下自发的大脑活动可能有助于形成大脑结构和形态,如皮层厚度”。因此,大脑结构模式通常被隐含地假设为决定功能模式和行为表型,并且根据这一观点,这些“基础”通常主要被假设为来自自然界。

与这种含蓄的观点不同,可信的证据表明,人类技能和特征与大脑形态测量之间的关系实际上最初是由几项探索大脑可塑性的研究带来的。因此,在新的学习/训练之后,出现了更微妙的变化,证明了常规行为和大脑结构模式之间的动态关系。同样,目前的理论表明,发育早期大脑区域之间的功能相互作用可能会驱动观察到的大脑区域之间的共形态模式。此外,现在有大量关于外部因素与大脑结构发育之间关系的文献。为了加强这一证据的可靠性,已有研究在一个非常大的儿童组群中,发现社会人口因素的差异与认知和大脑结构特征共享,因此,大脑结构和认知之间的关系与社会人口因素密切相关。此外,最近的几项研究表明,大脑结构和行为表型之间的关系是由发育组群中的家庭收入驱动或调节的。因此,总的来说,所有这些证据都表明大脑可塑性是一个主要方面,在解释、讨论关系和在科学专家团体之外交流研究结果时,应该始终先验地考虑这一点。

结论

过去的二十年里产生了大量的BSB关联文献,为差异心理学和认知神经科学理论提供了额外的经验背景。然而,这一实证支柱最近受到了复制危机的威胁。BSB关联的低可复制性已在一系列行为测量和各种流行的大脑结构估计中得到证明。这一危机应该促使该领域重新考虑我们基于健康人群中个体间变异模式来研究BSB关联的科学方法。特别是,大型组群(约1000名参与者)对BSB研究至关重要。与此同时,机器学习技术通过考虑大脑结构和行为测量的多变量性质,并促进鲁棒的关联模式,承诺为更传统的单变量方法提供一种补充的观点。这些新趋势已经突出表明,大脑结构的个体间差异在一定程度上与行为表型的个体间差异有关,这与大脑功能连接的程度相似。然而,研究结果在概念上的有效性仍然需要通过“非组群”和概念上的重复来仔细评估。这一挑战突出表明需要提供更多的组群数据。针对这一方面,在新群体中增加地理多样性和社会经济多样性的努力进一步掌握了衍生大脑行为模型有用性的关键并深入了解了BSB关联的影响因素。最终,这些努力有助于更好地确定环境因素在BSB关联中的作用。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值