网络神经科学的统计功效

网络神经科学已经成为研究大脑连通性的主要方法。这些研究的成功不仅取决于精确绘制连通性图的方法,还取决于在数据中检测出真实效应的能力——即统计功效。本文回顾了网络神经科学领域里统计功效的情况,并讨论了样本量、效应量、测量误差和网络拓扑结构等效应大脑连通性研究的关键因素。使用术语“差分功效”来描述功效如何在节点、边和图矩阵之间变化。最后总结了在连通性研究中如何将功效纳入研究而不是绕开功效的策略。本文发表在Trends in Cognitive Sciences杂志。

统计功效在连通性研究中的重要性

连通性科学已经成为研究大脑网络结构、动力学及其与功能和疾病关系的有力方法。好的数据和统计是这些连通性研究成功的关键。

由于误报对网络拓扑和后续推理的负面影响较大,连通性科学领域通常致力于提高连通性测量和网络重建的质量。在网络研究中,很少注意其他错误类型的效应,即真实效应的遗漏(missing out on effects)。但真实效应的遗漏可能会导致忽略大脑特定功能的网络参与,例如,无法检测到与疾病状况相关的大脑回路。

避免假阴性和在数据中检测出真实效应的能力被称为统计功效(统计功效的技术描述见1)。其中假阴性效应很容易由一些因素引起,如小样本量或数据的高测量误差。同时在网络研究中,“遗漏效应”也可能是由大脑回路和网络效应的特性和使用方法造成的。

统计功效对连接体研究的影响超出了研究中是否应该注意到效应的问题。统计功效在解释研究中发现的具体效应时起着重要的作用。足够的功效可以防止阳性效应的膨胀,并增加类似效应在其他研究复制的可能性。在功效不足的研究设计中,超过显著性阈值的效应通常大于真实的生物学效应,因此它们的功效被高估了——这种现象被称为“赢家的诅咒”('winner's curse')。统计功效在解释阴性发现时也起着重要的作用。足够的统计功效增加了置信度,即观察到的无效假设反映了数据确实不存在效应。正确解释无效假设对于大脑网络研究是重要的,目前有许多图元素(Box2)被同时研究,并且大多数效应(例如,大多数节点、边、网络)可能包括无效假设。

Box 1 功效

无论是在没有功效的情况下(图1,H0)或者当功效真的存在的情况下(H1;Figure a 显示了特定功效的情况,文章中的很多图都用I来索引,为了方便理清图的顺序,我们重新索引了图片顺序),统计功效需要最大程度地减少错误。假阳性或I型错误描述了检测效应不存在的错误(Figure a,右上角,红色区域)。通过显著性阈值可以明确控制假阳性:阈值0.05可确保在H0情况下报告假阳性的风险为5%。如果统计功效真的存在(Figure a右下,蓝色区域),那么它将检测到特定效应的概率;并防止发生假阴性或II型错误(Figure a,右下,红色区域)。在网络研究中,这可能意味着无法检测到患者群体中的聚类系数、特定回路或静息状态网络的变化,其中的生物学基础是:疾病会影响这些拓扑网络属性。

有多种原因可以解释为什么充分的功效对连接体研究的质量很重要。发现感兴趣的效应是进行研究的先决条件,尤其是对于涉及人类或动物受试者的实验。更高的功效也提高了无效假设和阳性发现的可能性。如果错过了真正的效应,但存在随机假阳性,那么任何一个阳性结果都有可能是假的。高功效还可以预防效应量的膨胀

在图1中,任何超过显著性阈值的观察值都大于真实效应量x,因此,当达到该效应时(即,达到设定的显著性阈值α),它总是会被高估。这种效应被称为“赢家的诅咒”('winner's curse')

图a 假阳性、假阴性和功效

因此,统计功效是一种重要的工具,可以给研究的阳性和阴性结果带来信心。本文旨在对影响大脑连接性研究的统计功效进行深入调查。我们概述了该领域统计功效的情况,并以此调查为起点,回顾了网络推理中统计功效的关键因素:样本量、测量误差和效应量。然后,我们研究了网络重建和网络组织将如何影响连通性的另外一类因素。讨论的中心点是这些因素会导致不同的功效——即大脑的不同部分和网络的不同部分之间的功效不同,如图矩阵之间、节点之间和边之间。我们用一些具体的例子来解释关键问题,并以建议和策略来结束讨论,研究人员可以采用这些建议和策略来提高大脑连通性研究的功效。

平衡复杂度和功效

大脑连接性研究涵盖了大脑网络和大脑回路的广泛层次水平和特征。这个可以从单个大脑区域、种子分析和与网络拓扑相关的全局方面(例如,small-world, rich-club),到大规模网络和模块(例如,默认网络、突显网络),再到网络属性(例如,hubs, paths, motifs ),一直到节点和边级别的分析。每一个层次水平都伴随着他们自己的机遇和挑战。研究采用了标准的统计工具和特定的方法来评估这些层次水平上的效应显著性,从t检验到用于空模型的广义线性模型和基于网络的测试。

与统计功效相关的许多问题可以追溯到人们对更细粒度的网络研究兴趣的日益增长,以及对大脑网络及其动力学研究揭示的更复杂特征的水平日益提升(图1)。这些方法的共同特点是:在保持足够功效的同时,处理连通性研究原有的大量测试挑战。随着大脑连通性研究对大脑及其功能的复杂性要求越来越高,统计测试数量的快速增长给正确控制可能出现的假阳性数量带来了压力。在网络研究中,在节点和边水平上的研究效应尤其面临多重性的问题,需要对快速增长的多重测试进行严格的校正,以避免出现过多的假阳性报告。

图1 如何塑造大脑连通性研究的复杂性功效?越来越详细的大脑连接图正在不断出现。

从左到右,该图显示了脑科学研究从孤立的大脑区域(灰色区域)到单个区域(蓝线)再到全脑连接组(节点为灰色、边缘为蓝色的图)的进展。因此,比较的数量、可能的效应空间以及所使用的网络和统计方法都在不断变化。这对研究大脑连通性的功效有着未知的影响。

多重比较校正需要与能够从数据中检测出真实效应的功效相平衡。连通性研究中执行的测试很多(Box2给出了一个例子),当应用严格的校正(如Bonferroni校正)时,发现任何效应的功效会变得非常低。为维持功效而采取的策略包括用多重比较谬误(Familywise error rate) 换取更宽松的错误发现率(FDR),以及利用网络拓扑本身来聚类效应的特殊方法

其中一种方法是使用基于网络连通子图的统计方法(NBS),这是一类通过检查效应的连接部分,以此来提高统计功效,而不是仅仅使用严格的显著性阈值(α),一次一个地测试每个单独的边。基于网络的方法已经成为该领域中重要的统计工具,并广泛用于检查大脑连通性和网络在疾病、认知、发育和衰老以及其他应用中的作用。NBS是基于网络推理的一个例子,它可以通过区分网络随机模式的显著效应,明确利用网络拓扑的各个方面来提高统计功效。

大脑网络可以使用图来建模,在图中,大脑区域被表示为节点,结构或功能连接被表示为边。连通性矩阵(加权)提供了连通性数据的数字表示(Figure 1,右侧)。网络科学的工具被用来研究大脑网络的拓扑结构,以及这种结构与功能、行为和疾病的关系。Figure I 显示了这种拓扑结构的两个示例。粉红色表示一个模块——一组密集连接的节点,红色表示中枢——在网络中处于中心位置的节点。

用于比较个人和群体间网络特征的统计工具,必须能够尽可能多地检测出数据的真实效应,同时控制错误(即误报)结果的数量。在网络研究中测试大量特征,是具有挑战性的。例如,在一项对聚类、全局效率、模块性和富人俱乐部组织都进行了测试的研究中(clustering, global efficiency, modularity, and rich-club organisation),使用未校正的显著性阈值α=0.05是相对宽松的。常见的做法是将α调整为0.05/5 = 0.01。第二个例子包括病例对照研究中的边水平分析,其中检查了50个区域的连通性(更精细的分割并不少见。测试数量迅速增加到(50 × 49)/ 2 = 1225,使用未校正的显著性阈值α = 0.05将导致大约60个假阳性结果。为了控制多重比较谬误(Familywise error rate),Bonferroni校正将α设置为0.05/1225 = 0.0004。但是,这会影响研究的效果。在样本大小为200:200的情况下,当预期Cohen’d = 0.4的效应时,这将对每条边的功效产生44%到98%的效应(双尾t检验,代码在https://github.com/dutchconnectomelab/power-demo上)。备选方案包括控制错误发现率(FDR)或切换到基于网络的推理。例如,基于网络的统计(NBS)通过测试边的重要性来提高效率,而不是在严格的α阈值下一次一个地测试每个单独的边。针对具体情况,本文介绍了几种有用的NBS和替代方案。

图1 连接图及邻接矩阵

在连通性和网络研究中,没有“免费的午餐”这种东西。例如,通过NBS搜索连接成分来提升功效,是以降低特异性和降低发现单个边的效应为代价的。局灶性卒中( focal stroke)对个体的连接效应和疾病对特定静息状态网络的效应,可能过于局限,无法与无效状态(null condition)区分开来,因此难以通过NBS分析进行检测。尽管基于网络的方法提高了检测一类效应(这里是聚类效应,clustered effects)中影响的统计功效,但是发现其他效应(例如焦点效应,focal effects)的能力却降低了。我们可以将此视为第一个迹象,表明在连通性和网络研究中测试的所有效应中,功效并不总是相等的——我们在讨论差分功效主题时将再次讨论这个关键点。

大脑连接功效的领域现状

我们对2019-2022年发表的1300例病例对照大脑连通性研究进行了非正式调查。Box3显示了我们在这些研究中遇到的三种常见研究设计的功效计算,即检查单个图指标(例如,小世界性、全局效率)、检查跨多个指标的效应(例如,几个图属性和静止状态网络,或逐节点分析),以及使用NBS检查边连通性(Box3显示了细节和假设)。根据观察到的样本量进行的单次检验的功效计算表明,在病例对照研究(d = 0.2)中,检测中等效应的中值功效水平为47%(Cohen’d=0.5),检测小效应量的中值功效水平为12%。估计每组需要65名受试者的样本量是想达到80%功效所必需的。为了测试多重效应并校正所执行的测试次数,功效计算表明中位功效水平的范围分别在3%和24%之间(d = 0.5和d = 0.2五次测试;α = 0.01)。进行边水平分析时,对于调查研究中遇到的样本量,中等效应的中值功效水平可以达到31%(30个边的网络,d = 0.5,Box3)。

在调查的研究中,约有五分之一的研究在论文的某个时候提到了统计功效。三个共同的主题是:(I)讨论由于样本量小,研究设计的功效有限,(ii)提到了多重比较校正方法选择的功效,例如使用NBS或FDR, (iii)在解释所呈现结果的背景下讨论功效,例如警告潜在的假阴性或作为无法复制先前研究结果的解释。我们在以下章节中将以这些主题为主线,讨论这些因素对塑造大脑结构和功能连通性研究功效的效应。

我们从PubMed检索2019年至2022年发表的病例对照研究(两个及以上样本)中随机抽取了1300项连接性研究(300项DWI结构连接性研究,1000项功能磁共振成像功能连接性研究)(PubMed检索标题/摘要中的“结构连接性”或(“功能磁共振成像”和“功能连接性”)和“患者”)。对结果进行了手动检查,以了解样本量并讨论功效。

样本量

功能性研究的观察样本量介于15至68个病例和对照(第10/90百分位数;每组中位值30名受试者),结构连接性研究样本量中位值在14到84之间(中位值32;Figure I,左)。

功效估计

这些研究考虑了以下三种不同情景检测标准下的中等(d = 0.5)和小(d = 0.2)效应的功效:

(I)使用双边t检验比较单一图指标(α= 0.05);

(ii)测试多个5/10/50度量,并使用Bonferroni校正(α= 0.01/0.005/0.001);

(iii)使用NBS,并且功效被计算为检测到的边比率(示例设置:832个边的网络中有30个聚类分量,NBS t-threshold=2;α = 0.05)。

Figure b (右)显示了基于文献样本量的估计功效。对于情景一,中等效应的功效估计(单次检验,d = 0.5,α= 0.05或等效,未校正结果)表明中值功效为47%(第10至90百分位:26–83%)。对于小效应(d = 0.2),中值功效为12%(8–21%)。对于情景二,校正5/10/50试验后,中值功效分别为中等效果24%/17%/7%,小效果3%/2%/0.5%。在情景三中(数据未显示),NBS Monte Carlo模拟表明,需要31%(6-81%)的中等功效水平才能找到中等效应量(d = 0.5,832条边中随机聚集了30条边,平均聚集了48%的成分,NBS t-threshold = 2);对于较小效应(相同设置,d = 0.2),中值功效为1%(0.3–4%)。感兴趣的读者可以使用提供的分析脚本检查不同的设置https://github.com/dutchconnectomelab/power-demo

值得注意的是,这些估计给出了普通研究设计的功效指标,但它们并没有描述“该领域的功效”。研究者可以检查更大或更小的效应 (例如,d<0.2的效应不常见;连通性研究通常执行比示例设置更少或更多的测试;测量误差和差分功效可能会进一步影响功效(Box 5)。情景一中的计算(测试单个度量,效应大小d = 0.5,α = 0.05)可被视为该领域中当前功效的估计上限。

功效讨论

在调查的279项研究中讨论了功效。在171项研究(61%)中,功效在研究限制的背景下被提及,在95项研究(34%)中,功效在方法选择中被提及(例如,FDR对比Bonferroni,使用NBS),在56项研究(20%)中,功效在结果解释的背景下被提及(例如,在解释阴性结果时需要谨慎,或作为与先前文献不符的潜在解释)。在这些研究中,有5%(1300项中的45项)进行了功效分析。

图b 文献中的样本量和功效估计(2018-2022年)

我们首先讨论实证研究中普遍存在的三个功效因素(图 2):样本量、测量误差和效应量。尽管这些因素对统计功效的效应已被充分理解,但我们看到,在网络调查的背景下,这些因素可能以更复杂的方式塑造大脑连通性研究的功效,并可能在网络的不同部分留下不同功效的痕迹。除了这些“三大因素”,我们还回顾了“网络本身”,提供重要的第四类效应,可以塑造大脑连通性研究功效。

图2 大脑连通性的功效因素

连通性和大脑网络研究的功效受到多种因素影响。样本量、效应量和测量误差是影响功效的普遍重要因素(从上到下,从左到右)。使用更大样本并寻找更大效应量的研究通常更有能力报告稳定且可复制的发现。图2右上角将“网络”表示为塑造连通性调查功效的第四类因素。与网络相关的功效因素包括重建、分辨率、分析级别和拓扑(从左到右,底部)。因为测试数量不断增加,在较高空间分辨率(即,更多节点、边)下检查大脑网络和在更详细的级别(例如,全局网络与边级别)下检查大脑网络必须与潜在的功效损失相平衡,并且在较高分辨率下可靠地测量连通性的难度更高。此外,功效的网络组织也发挥了作用。聚类拓扑网络属性,如模块内的效应、丰富的俱乐部或聚类回路,更容易通过基于网络的统计(NBS)等技术来检测,因此比拓扑结构更像树或蛇(注释:一种类似于树的分支网络结构或者类似于蛇的回环路网络结构)的效果具有更高的统计能力。

样本量(sample size)

在神经影像学研究中,样本量对功效的影响是众所周知的,对于连通性研究也是如此:较大的样本量通常能够更精确、更可靠地检测效果(图3A)。病例对照连接性研究的样本量通常为15至73人(第10和第90百分位数;样本量中位数:每组30名受试者;Box3)。这与在更广泛的神经成像中对样本量的观察一致,但同样表明大脑连通性研究中的样本量仍然相对较小,因此在保持足够的功效方面面临挑战。在这一挑战的推动下,神经影像学研究见证了使用更大样本量检验效果的阳性趋势,同时重新关注复制、验证和组外分析的重要性。尽管网络研究中样本量的影响是直接的,但在与数据分析过程中做出的方法选择(例如,缺失连接)相互作用时,测试样本可能会变得比最初包含的样本更小,这反过来会影响研究的功效(我们在Box4中给出了一个例子)。

效应量(effect size)

第二个众所周知的影响因素是效应量(图3b)。在大脑连通性中,效应量描述了连通性的各个方面有多强(例如,默认模式网络中的功能连通性、网络的全局效率水平、边的权重等)。与感兴趣的表型(例如,疾病状态、智力测量等)相关联。与样本量类似,效应量和功效之间的一般关系也得到很好的研究,通常较大的效应量更容易检测。一个值得关注的问题是关于大脑连通性研究的典型效应量。这个问题的答案对于功效估计和样本量计算很重要(Box5),近年来也越来越受到关注。

在大脑连通性的背景下,可以研究各种类型的效应。在一项典型的静息态功能磁共振成像(fMRI)研究中,相关效应被限制在-1和1之间,因此0.1的连接强度差异通常被认为是大的。结构连通性的测量可以采取多种形式——从流线(streamlines)的数量到各向异性分数或平均扩散率的束平均水平,以及髓鞘形成和轴突密度和直径的估计。就流线数量而言,数值范围从0到许多,取决于设计细节。在平均分数各向异性的情况下,值通常在0.1和0.6之间,对于各种脑部疾病,束和区域 (tract-wise and region-wise) 病例对照效应值高达0.05。

尽管越来越多的人意识到,在神经影像学研究中,除了显著性(P值)之外,报告效应量也是有用的,但这在大脑网络研究中还不常见(Box3)。在遗传学中,报告任何已进行的全基因组关联研究的统计摘要已成为标准。这迅速引发了许多对已发表的研究结果的整理和功能性跟踪分析。我们建议MRI连接性和网络研究通过将此文件作为补充数据添加到出版物中,类似地开始报告组差异(如Cohen’d值)或其他效应量和/或t统计图。与其他领域类似,这种结果报告可以极大地促进跨研究和元分析中对大脑连通性效应的进一步比较。

测量质量和测量误差

大样本量和大效应量本身并不能保证足够的功效。第三个重要因素是测量值之间的差异水平。所测量的信号(例如,重建流线的数量、体素分数各向异性、BOLD时间序列之间的相关性)通常由生物学方差组成,捕捉个体之间在例如白质髓鞘形成、轴突束的大小或功能连接水平方面等有意义的差异。这与描述所使用的方法相关的方差的测量误差相混合,例如,扫描仪效应、运动等。

研究生物差异是神经影像学研究的核心,旨在研究大脑组织中的个体差异与大脑功能、行为和疾病状况之间的关系。另一方面,与测量误差相关的方差被理想地最小化。数据点之间的测量误差水平越高,通常就越难检测到效应。反之亦然,与生物方差相比,测量噪声越低,研究检测效应的能力就越强。评估大脑连通性调查中测量误差效应的研究指出,由于数据质量和数据分析策略的差异,可能会出现显著差异。

测量误差尤其需要考虑(图3c)当测量误差的尺度接近所研究的效应量(Box5显示了如何在功效分析中考虑测量误差的示例)。量化研究方法误差的一种常用方法是测量可靠性,即真实(生物)方差与总测量方差的比值。可靠性可以在重测信度调查中进行估计,该调查测量的是,在多大程度上可以通过对同一个人的多次测量来可靠地捕捉连接或图矩阵。重测信度研究报告了中等至低的结构和功能连接性估计和图矩阵的再现性,表明测量误差对大脑连通性研究的功效有相当大的效应。

这些重测信度(test–retest)研究还指出,大脑和大脑网络的不同部分之间可能会出现相当大的差异。研究注意到,节点之间、静止状态网络之间、不同类别的网络边之间、度量之间的测量可变性存在相当大的差异,例如网络边缘的权重测量 (图3D,E)。因此,检测大脑不同部分功效的能力存在差异。

提高功效的一个直接策略是尽量减少研究的测量误差。然而,我们必须考虑到,虽然高测量可变性通常会对研究的功效产生负面效应,但反过来就不一定了。低水平的测量误差和高可靠性不能直接给出关于测量信号的对于当前的研究问题是否有效的信息。例如,已注意到扫描仪运动的变化会导致功能连接性的高度可靠但却是虚假的组差异。因此,要意识到,测量噪声的减少并不必然导致研究功效的增加。

网络组织

样本量、效应量和测量误差对功效的效应在神经科学研究中是普遍已知的。在下文中,我们将讨论通过网络框架的相关方面如何进一步确定网络研究的统计功效,包括网络的重建步骤、网络分析的规模水平以及所研究的网络效应的拓扑组织。

大脑连通性的重建

从神经成像数据重建连通性必然涉及的重要步骤。这些包括与所使用的扫描协议相关的方法学——例如,更长的扫描时间(fMRI)和扩散加权成像(DWI)的更多梯度方向通常有利于研究功效——以及连通性绘图和网络后处理中的步骤。在功效方面至少要考虑两个因素,包括“图谱选择”和“阈值处理”。我们将在更广泛的网络分辨率和分析水平背景下讨论图谱选择,因为它们对功效的影响是相当的。

阈值处理的后处理步骤包括从网络中去除噪声或其它“不感兴趣的边缘”,并用连通性矩阵中的“零”来代替它们。尽管阈值处理是否必要仍然是一个公开的话题,但是如果必要,最佳阈值处理策略仍然是不确定的。估计80%的网络研究执行某种形式的阈值处理,使其成为结构和功能网络研究中常用的数据处理步骤。重测信度研究指出,阈值会影响网络重构的整体重测信度的可靠性(图3F),从而影响研究的功效。

阈值对功效的影响有多个方面。在功能连接的情况下,人们可以认为阈值处理过程产生的“零”保留了有用的信息——它们本质上是离散的测量值——并且可以最好地包含在后续分析中,以最大化研究的功效(去除它们实际上会损害功效;Box4)。然而,在结构网络中,这可能不是那么简单的,因为在重建步骤中,由阈值处理产生的“零”可能会与由于丢失连接产生的“零”混合,因此不会自动保存关于重建连接强度的有用信息。结合使用连接强度的替代指标(通常使用分数各向异性、连接密度、髓磷脂估计值或功能连接的结构约束),包含这些零可能导致方差膨胀,从而对功效产生负面影响(方框4中给出了进一步的示例)。

网络重建的巨大灵活性提出了一个问题,即哪种重建方法可以最大限度地提高功效。虽然没有简单的答案,但研究表明,应该注意重建方法中灵敏度和特异性之间的一般权衡,这是在后续计算和图论中比较重要的因素。

网络分辨率和分析水平

重建和分析大脑连通性的分辨率(通常也称为大小或尺度)是在功效背景下要考虑的一个重要因素。它通常由图谱和用于分割大脑的区域数量决定,常用的方法从适度数量的区域(例如,20-100个节点和数百条网络边)到细粒度的“顶点和体素式”连通性重建(例如,数千到数万个节点和更多的边)。

精细绘制的大脑网络重建的动机是捕捉大脑连通性的更多生物学相关方面的可能性,从而潜在地检测大脑回路中的更多细节。然而,重要的是要考虑到分辨率的任何提高都必须与研究功效的潜在损失相平衡。特别是,在大脑网络研究中,以更高分辨率进行的测试数量迅速增加,再加上以更高细节可靠测量连通性的难度增加,对研究保持功效提出了挑战(图3G)。

检验网络效应的分析水平也会效应网络研究的功效。与全局拓扑网络特征(例如,富人俱乐部拓扑、聚类、全局效率)相比,检查局部网络特征(例如,节点、路径、边)会带来大量需要测试的效应,并且通常具有更高水平的测量误差。这些因素与网络分辨率相当的方式影响网络研究的功效,并且增加所执行的测试数量使得研究难以保持足够的功效。

网络拓扑结构

在网络研究中,一个较少被讨论的决定性因素是网络拓扑本身的效应。例如,NBS通过测试整个网络中效应的特定组成部分,极大地增强了统计功效,但从设计上看,它比其他类型的子网络更有可能检测到集群子网络中的效应。很少研究直接考察网络拓扑和功效之间的关系,但是现有的证据表明现阶段的方法倾向于发现聚集效应。仿真结果表明,与网络中的树状效应相比,NBS程序更容易检测到循环效应 (循环图是节点之间有多条路径的网络,聚类网络(clustered networks)就是循环图的一个例子;图3h)。Box4 展示了一个类似的模拟,涵盖了更广泛的网络效果。这些模拟强调,网络结构和测试效果的拓扑形状是塑造连通性研究统计功效的进一步因素,这些值得在领域中受到关注。

图3 大脑连通性的功效关系。经验证据和数值模拟显示了连接组的多因素功效观。

(A)在心理表型和大脑特征之间关联的各种显著性阈值下,功效和样本量之间的关系示意图。

(B)说明静息状态fMRI对精神病理学的功能连接性的效应量因大脑区域而异。

(C)达到80%功效所需的样本量、效应量和测量可靠性之间的关系。该图表明,不太可靠的连通性测量需要更大的样本来获得足够的功效。

(D)在按体素划分的分数各向异性值的重测条件下,通过改变ICC而产生的跨大脑区域的测量误差差异。

(E)Glasser图谱在整个模板中,在上顶叶、中颞叶和背外侧前额皮质发现了高度可靠的边(ICC >0.75)。

(F)连通性重建策略对测量误差效应的图示。该图显示了边缘之间的半分割一致性(ICC),以及一致性和跨网络稀疏度的比例阈值。

(G)一项重测研究的结果,该研究报告了跨地图集不同水平的测量可靠性。

(H)跨网络效应的基于无阈值网络统计(NBS)的不同功效水平的图示。对于拓扑结构不同的两组效应(环状结构与树状结构),该图显示了对模拟效应的敏感性和跨参数的假阳性率;循环网络是在节点之间有多条路径的聚类网络)。

(I)人类连接体项目数据集中跨结构连接图的边缘患病率分布,

简称:FA,分数各向异性;FC,功能连接;ICC,组内相关系数。

差分功效

正如我们到目前为止所看到的,网络的功效是由多种因素共同塑造的。接下来,我们将讨论这些因素的组合如何进一步产生差分功效——在单个研究中,由于网络不同部分之间的功效变化,某些连接、功能网络、图或网络节点/边的效应可能比其他更容易检测到。这种功效空间模式可能会引入结构性偏差,在这种情况下,有的效应会被发现,有的会被忽略,这可能反映了fMRI研究假阳性结果中观察到的类似结构。我们讨论了几种可能出现差分功效的情况(图3 and 4和Box4)。

第一个重要的情况是,在网络的不同元件之间,测量误差有相当大的变化。基于fMRI和DWI的连通性图测量噪声的重测研究,确实注意到网络连接的重测可靠性的实质性变化。例如,长距离连接比短距离连接更难可靠地重建;短连接又被注意到更受头部运动的影响。类似地,视觉、额叶和默认模式网络的功能性连接记录据报告平均比皮质下网络中的功能性连接记录更可靠。因为测量误差是统计功效的重要决定因素 (Box4),测量误差的系统变化可导致网络的不同元件之间的统计功效的显著差异。

在这种情况下,需要考虑的一个要点是,使用标准化的效应量,并不是总能正确地解释方法的方差差异,如Cohen’d。随着潜在测量误差方差的增加,标准化的影响变得越来越小,使得具有不同测量误差水平的研究效应直接一一对应变得比较复杂。方差的变化在网络的测试元素之间不太相同,因此标准化的效应量可能无法直接解释和比较网络的边缘(Box4)。

差分功效的第二个来源可能来自缺失值,这可以被视为测量误差的极端情况(即整个连接缺失)。由于解剖连接的不完全重建或在阈值处理期间排除弱或负相关性,单个结构和功能连接组图可能包含遗漏或不正确重建的连接。在组分析(Box4)中包含或排除这些零点的选择,这些丢失的连接可能分别扩大方差或在网络的不同边之间的测试样本量中引入细微变化。这组受试者中的这些缺失值可能因连接的不同而不同,结合起来会导致整个网络中边缘患病率的系统性变化(图3I)。

网络的拓扑结构和网络内部的效应可以引入第三个差分统计效应。这种效应可以被认为是采用基于网络的方法,该方法利用图结构来寻找显著的结果。例如,上面提到的通过使用基于网络的推理工具来提高功效,可以通过代数连通性的概念和网络在数学层面上对“损害 damage”的鲁棒性来解释。众所周知,集群网络元素(如集群组件或模块)对于随机移除边缘(或等效地忽略一些边缘的效应)非常鲁棒,而组件作为一个整体保持完整且可检测。相比之下,树状结构对边缘的随机移除更敏感,因为这直接导致组件分解成更小的子组件,因此这种结构不太可能被专门设计用于搜索连接组件中的效应的方法拾取(框4)。更广泛地说,通过特定方法实现的功效增加通常适合于特定类型的效果,而不是在大脑连通性研究中可以研究的所有网络元素中通用。

上述通过使用基于网络的推理工具的能力提升,可以通过代数连通性的概念[124]和网络对“损害”的鲁棒性在数学层面上进行解释。聚类网络(Clustered network)元素(如聚类成分Clustered component或模块)对于随机移除边(或等效地忽略一些边的影响)非常鲁棒,而成分作为一个整体保持完整且可检测。

Box4 差分功效示例

在大脑网络研究中,有几种情况会导致不同的功效。

测量误差

分别具有低测量误差(重测信度可靠性ρij = 0.25)和高测量误差(低可靠性,ρ↓uv = 0.81)的两个边eij和euv可以显示功效的显著差异。在eij中检测d = 0.5的效应功效仅为5%,而在euv中为63%(200个病例和对照,d = 0.5,α= 4。105)。

阈值和患病率

由于不完整的重建连接(即,丢失值)或阈值处理,边之间的组流行度可能不同。在阈值化的情况下,连通性矩阵中的零保留有意义的信息,并且功能连通性数据的蒙特卡罗模拟证实,当包括这样的零时,推断更有力(当零被保留时功效为63.6%,而当它们被移除时功效为4.6%;样本量、α和效应量如上;约30%的对照绝对阈值,10000次模拟)。

相比之下,代表“缺失值”的零会增加方差,而不会提供信息。使用结构连接性数据的蒙特卡罗模拟表明,排除这样的零点有利于功效(例如,当在模拟中去除零时,功效从5.2%增加到58.1%,其中30%的受试者具有如上所述的模拟边缘、样本量、α和效应量的缺失值)。排除零点确实会引入差分功效,因为有效样本量发生变化。如果30%的受试者有缺失值,有效样本量从200减少到140,功效从80.1%减少到50.7%(样本量、α和效应量同上;双边不成对t检验的功效分析(G *功效)。

网络拓扑结构

疾病模式的网络拓扑会影响功效。采用不同随机疾病模式的病例对照研究的蒙特卡洛模拟表明,使用NBS检测效应的能力范围为30%(无聚类)到80%(聚类) (疾病成分中有30个边,100个病例和对照,d = 0.25,α = 0.05),所有病例的规模相等,但聚类程度受控,范围从“无聚类”到“最大聚类”疾病模式。图c 显示了功效水平,其中每个疾病模式通过子网的最大最短路径长度的倒数进行分类,以测量模拟疾病模式的“扩散”程度。更详细地介绍这些示例的脚本可在以下网址找到:https://github.com/dutchconnectomelab/power-demo

图c 效应聚类与功效的关系

功效的挑战和机遇

连通性和网络研究中功效的许多方面对大脑连通性的发现有重要影响。我们探索这些影响,以及增强网络神经科学研究功效的策略。

如何最好地评估大脑连通性研究的功效?

功效分析是一项成熟的技术,但尚未普遍应用于大脑连通性研究(Box3)。功效分析在应用中的一个未解决的问题,及被认为有意义的最小效应量的定义。这个问题在神经科学和神经成像领域越来越受到关注,因为随着样本量的增加,可以检测到越来越小的效应。就功效而言,有意义的最小效应量是样本量计算的一个重要因素(Box5) 。

在评估大脑连接性研究的功效时,差分功效提出了一个额外的挑战。大脑连接性研究的功效可以参照所检查的区域和连接来更好地讨论,而不是单一的度量。一种可能的方法是在执行预期的连通性分析之前定义功效图。这种映射可以为每个连接、功能网络或图描述出,对于给定的样本量和定义的效果量可以达到的统计功效水平(Box5)。例如,在边级别,可以使用功效图来先验地屏蔽掉功效严重不足的边缘,并且对于这些边缘,几乎不可能找到最小的有意义效果。这样的程序减少了要进行的统计测试的数量,并增加了研究的功效。它还增加了观察到的阳性结果的可信度,并简化了无效结果,因为这些结果现在可以根据足够的功效进行解释。

网络推断的功效估计进一步加剧模拟复杂情况的挑战,这些情况可能涉及多个分析步骤,并且功效取决于网络组织。蒙特卡罗模拟在这里是很有价值的,这是一类在研究复杂的数据结构时通常用于功效估计的方法。通过对假设效应和影响效应的因素进行建模,网络神经科学领域可以将功效分析用作设计和解释研究的工具。

解读阳性的发现

统计功效有助于解释一项研究的阳性和阴性结果。在一项强有力的研究中,报道的阳性效果可能接近实际效果量,并防止了“赢家的诅咒”。相比之下,低功效检查的结果可能会报告高估的功效,从而可能导致夸大评估,例如疾病对大脑连通性和功能效应的夸大评估。

当需要在大脑的不同部分之间比较测试显著性时,理解决定连接性研究功效的因素尤为重要。可以比较皮质组织相对于其他模态(例如,关于细胞结构的数据、皮质转录组学或其他成像数据)的梯度,或者跨网络的不同部分进行比较。但这种分析需要谨慎,因为它们经常涉及比较和解释不同脑区之间的统计值差异。例如比较默认模式网络和突显网络中的疾病效应,其中第一个显示显著效应,第二个显示不显著或“不太强烈”的效应,由较低的t统计量和较高的P值表示。统计文献建议在这种情况下不要比较统计指标,如t统计量或P值以避免过度的将此差异解释为涉及一个网络而另一个网络未涉及的证据。统计值的差异同样可能是由两个测试网络之间的功效差异造成的,而不是潜在效应的真实差异。鉴于跨大脑网络的不同功效,建议效应之间的差异——跨大脑区域、跨网络、跨边缘等,接受额外的统计测试以明确测试差异。

解释无效假设

功效还有助于正确解读大脑连通性研究的阴性结果,这对理解阳性结果的特异性至关重要。在一项充分有力的研究中,无效假设提供了更有力的证据证明确实不存在大效应。例如,如果一项研究的功效足够强大,能够检验显著性网络与疾病有关的假设,但没有发现任何证据来拒绝零假设,则该研究可以将所得到的无效假设解释为该网络与所研究的疾病无关的证据。另一方面,当研究不够有力时,例如由于样本量小,仍然难以确定无效假设是否代表真正没有效果(即没有显著性网络的参与),或者无效假设是否是由于研究设计缺乏功效(即样本量太小)。

Box5 网络研究中的功效计算

我们概述了功效分析在病例对照边缘水平研究中的表现,在该研究中,我们计算了达到80%功效所需的样本量。

第一步:效应量

首先,指定感兴趣的效应量。因为微妙的效应更难检测,较小的效应量需要较大的样本才能获得80%的功效。可使用试点研究设定预期的效应量、元分析和巨分析或常规基准(例如,对于小/中/大效应,0.2/0.5/0.8的Cohen’d)。我们在这里为所有边设置d = 0.5。

第二步(可选):评估可靠性

可靠性ρ可用于计算测量误差。在网络研究中,可以将每条边的ρ单独估计为跨重测信度连通性数据每条边的类内相关系数(ICC )。重测信度数据最好与研究设置相匹配;如果此选项不可用,请打开人类连接体项目的数据集提供另一种选择。在我们的例子中,我们可以发现,对于边eij,ρuv =0.81,ρij = 0.25 。

第三步:显著性水平

设置显著性水平α。在一项包含50个脑区且α0 = 0.05的网络研究中,Bonferroni校正给出了

,可以使用FDR等替代方法。

第4步:边功效计算

接下来,可以执行边功效计算。标准工具,如G*Power涵盖了广泛的设置。计算将效应量d作为输入;为了解决数据中的测量误差,应使用

。G*Power计算表明, eij需要787的样本量,euv需要246的样本量才能达到80%功效(对于双尾t检验)。

第5步(可选):功效mask

步骤4产生所需样本量的边映射图。这些估计可用于定义功效mask,该功效mask选择数据集具有足够的被试和可用边。功效mask最好在研究开始前计算,并且应该基于从数据集中删除的子集或外部数据集。步骤3-5可以重复几次,以将变化纳入多重性校正(步骤4 ),直到达到稳定状态。

在解释无效假设的背景下,一个特别有价值的补充是关于等价测试的方法:一类允许人们专门测试数据中是否存在有意义的效应测试;即提供“接受零假设”的证据。等效性测试使用两个单侧测试——一个测试效应是否大于下限(m- u ),另一个测试效应是否小于上限(m+u)——联合测试效应与固定均值(m)的等效性,并剔除存在的最小效应量(u)。在研究大量大脑连通性效应的背景下,等价性测试是一种有价值的工具,可以对数据中的无效假设更有信心。当网络研究中检测到的效应特异性感兴趣时,等效性测试可以对数据进行更有原则的评估。

图4 差分功效:“不是所有的边都相等”

(A)该图显示了图元素之间的功效差异示例。 (1) 在单个受试者中边缘可能丢失(左上插入,红叉),这与网络重建相结合可能导致边缘之间有效样本量的差异。 (2)不同连接的测量误差水平可能不同(插入右侧和中间)。例如,已经注意到基于长距离连接的边缘不如基于短距离连接的边缘稳健。 (3)网络效应的拓扑结构也可能导致图元素之间的功效差异。使用基于网络的统计(NBS)等技术,粉红色模块中的效应比网络中其他地方的效应更容易检测。差分功效对连通性和网络发现的解释有影响。(B)假设疾病的连接体效应(顶部;受效应的连接用深蓝色标记,未受效应的用浅蓝色标记)只能部分检测到(底部;检测到的效应为红色,遗漏的效应为灰色)。高功效边缘的效应被正确检测到,而功效相对较低的边缘效应仍未被检测到。

增强连通性研究的功效

样本量主导了关于功效的科学讨论,并且仍然是不断努力增强网络神经科学研究功效的主要组成部分。我们将概述另外三种提高大脑连接功效和网络的方法。

要考虑的一个方面是选择进行推理的尺度。如前所述,网络调查可以关注不同规模的连接组织,从边到子网,再到全局组织的各个方面。对于给定的调查,哪种尺度具有最大的统计能力取决于所调查的效果。当假设焦点效应时(focal effects),例如在特定连接或路径中出现的条件,边级分析或特定子网的分析可能是最有效的方法。当假设涉及更广泛的网络时,研究全局网络度量和使用基于网络的推理方法可以给出更好的效果。几项研究确实表明:精神和神经疾病可能围绕大脑的大规模子网和网络元素组织。因此,明确表达对功效类型和程度的预期,并相应地调整统计方法,可能是增强大脑连通性研究能力的重要工具。

与调查规模密切相关的是用于定义网络的大脑图谱的选择。更详细的图谱引入了更多的平行测试,并且通常在观察到的连通性中表现出更多的测量误差,因此需要更大的样本量来维持足够的功效。因此,当在更粗糙的大脑水平和尺度上进行时,统计推断可能更有力。

通过考虑所执行测试之间的依赖程度,可以进一步减轻多重性效应。由于空间和拓扑关系,节点和边的值可以说是不独立的,最近的研究确实表明,低维投影可以捕捉连通性数据的大部分变化。有各种各样的框架可以利用这种依赖性,而且这些在其他领域也很常见。这种方法在网络神经科学中相对较新,提供了一个重要的工具集来增强大脑连接和网络研究的功效。

总结

利用神经影像学数据研究大脑连通性的可能性正在迅速扩大(图 1)。我们希望这篇文章帮助大脑网络研究人员能够自信地解释他们的结果,并改进他们的统计工具。全面了解共同塑造我们连通性研究发现影响效应的不同因素,这对于我们继续探索和理解健康和疾病中的大脑回路非常宝贵。

对大脑连通性的效应有多大?边、子网和图指标有哪些效应?哪些最小效应应该被认为是有意义的?在大脑网络研究中,共享“网络汇总统计('network summary statistics')”是否应该成为常见做法?

如何在大脑连接和网络研究中最好地实施效应分析?

在网络框架中,如何最好地联合解释阳性和无效假设?

功效的差异在多大程度上是依赖的?(例如)沿边测量误差在扫描仪、患者组或模态之间是否可比较,或者是否需要根据具体情况进行评估?

以上的这些问题,都应该在网络分析研究中慎重考虑!

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值