PNAS:通过超出簇水平的分析提高fMRI研究的效力

神经影像学领域的研究通常关注局部脑区或区域性环路(焦点视角)。然而,对全脑更广泛水平的研究已经展现了一幅更加丰富且更有效力的图景,提示我们也许焦点视角的报告只反应了真实效力的冰山一角。目前还没有研究使用真实数据对焦点视角与广泛尺度视角会怎样影响研究推论进行全面的评估。本研究使用经验基准测试程序,采用重采样的任务态人类连接组项目数据集(约1000名被试,7项任务,3个重采样组大小和7个推论过程),比较了多种水平研究方法的敏感性和特异性。只有广泛尺度(网络和全脑)研究方法获得了平均80%的较高统计效力,并超过焦点视角(边,edge;和簇,cluster)20%。对假阳性率(FDR)进行控制的多重检验矫正的效力也同样取得了显著提升(与FWE相比)。广泛尺度视角的缺点则很有限,与取得的效力提升相比,广泛尺度视角在特异性上的损失很少。而且,这种广泛尺度方法简单易用,为研究人员提供了一个易于上手的起点。这也表明广泛尺度视角的前景不仅可以用于功能连接,也适用于更复杂的场景,比如任务态激活。总结而言,这项工作表明,可以通过改变研究尺度和选择FDR矫正来迅速提高统计效力。本文最新发表于PNAS。

功能磁共振成像(fMRI)是探索人脑的基础技术。大多数fMRI研究旨在精确定位与行为、特征和其他表型信息相关的特定大脑区域或回路(即相邻体素或边缘的小“簇”)。虽然在簇级别执行推理准确地反映了潜在信号的某些属性,但即使在几十年前,这种方法的提出者也指出,分布式模型可能更好地捕捉到潜在的生物特征。最近,比以往任何时候都更大、更深的数据集进行的研究已经开始揭示,与任务相关的活动涉及在整个大脑中协同发生的过程。大脑中的大量边(脑区间的功能连接)也被证明是协同作用的。然而,尽管出现了更广泛的推理和预测方法,簇级推理仍然是典型fMRI研究的主要工作。

考虑到神经过程天然具有的分布式性质,转向更广泛的推理水平,跨越广泛的大脑区域,可能会提高我们检测效果的能力(即“效力”或“敏感性”)。这是至关重要的,因为领域内最近承认典型的fMRI研究普遍缺乏统计效力。效力不足的研究不仅无法检测到确实存在的效应,而且还会导致不能重复的研究结果,或者仅仅揭示了真实效应的冰山一角。许多人主张的各种提高效力和可重复性的方法也是正确的(例如,增加样本量,设计能产生更稳健响应的任务)。然而,人们对只要简单地重新定义推理水平就可以提高研究效度的关注相对较少,而这是一个很容易上手的研究方式。

本研究中,我们系统性地使用fMRI功能连接数据探索了效力了如何随不同推理尺度(边,簇,大尺度脑网络和全脑)的改变而改变。同时我们评估了反映过滤假阳性率和真实的特异性效力的关键指标,以及当改变多重比较矫正的误差指标时结果如何变化。关键的是,将完整数据集指定为感兴趣的总体让我们能够在保留真实数据结构的同时完全确定“真实情况(ground truth)”效应。

总之,更广泛的推理尺度提供了更大的能力来检测已知的经验效应。事实上,在我们的最小样本量(n=40)的数据中,边和簇水平的平均效应检测能力几乎是网络和全脑水平的一半。即使在最大样本量(n=120)的情况下,簇水平的推理仍然错过了一半以上的连接组效应。我们发现,在基于任务的范式中,广泛视角的推理效力提高与真实情况的广泛性质密切相关,并在特异性上损失最小。所有方法进一步受益于更宽松的多重检验矫正,尤其是小尺度方法,并且我们认为,相较于效力的提升,特异性的牺牲仍然是合理的。最后,我们讨论了我们如何期望这些从功能连接中得到的结果可以推广到任务相关激活和更多具有类似的广泛依赖性的数据中。

结果

利用在大型真实数据集中对fMRI统计程序进行基准测试的最新计算框架,包括我们以前在基于任务的激活上下文中的工作,我们通过对来自人类连接组项目(HCP)S1200数据集的功能连接组进行重新采样,根据经验估计了推理水平的能力(图1是方法的摘要;详细见方法部分)。共使用了七种推理级别的程序,分别是:“边”,“边的FDR”,“簇的大小”,“阈值自由簇的增强(TFCE)”,“网络”,“网络的FDR”,以及“全脑”。每个程序至少控制了一个假阳性率(如FWER,familywise error rate),或假阳性相对于所有阳性的预期比例(如FDR)。每次重采样时,会比较成对样本(两种采样率之间)任务和静息态功能连接之间的差异,并与真实情况(全样本)数据集进行比较。“真阳性”被定义为与真实情况效应符号一致的检测,假阳性则被定义为与真实情况效应符号相反的检测,或在“假任务对比”(如两个静息态之间)中的检测。需要注意的是,为了进行基准测试,将真实情况的效应符号看作精确确定的。不过符号错误在整个数据集中都有可能发生,尤其是对小的效应量,但由于大多数效应在整个数据集的分析中都是显著的,因此符号错误的影响不大(具体描述可见本文附加材料)。接下来,真假阳性率被用于计算多种反应表现情况的指标。对数据集中可用的七个任务扫描中的每一个都进行了基准测试实验,并选择了三个组大小进行重采样(n=40,80,120),以涵盖领域内认为的从中等到高的样本量。

图1  方法和推理水平的整体示意

(A)估计真阳性率的基本过程和参数。

(B)基于目前的基准研究,在定位和解释结果的能力与在典型样本大小下检测效应的能力之间进行权衡,以及每种方法捕获空间扩展效应的程度。

整体而言,检测真实情况效应时,采用广泛尺度视角(图2A)和FDR控制(图2B)取得了显著更高的平均效力。采用广泛检测真实情况的平均效力。只有脑网络和全脑水平的方法取得或者超过了“足够”的效力,也即一般认为的β=80%的效应量。尤其是全脑水平,即便在最小的样本量中也检测到了全部效应。其他的分析方法取得了10%(边,n=40)至65%(边的FDR,n=120)的平均效力。样本量最小(n=40)时各方法之间的差异尤其明显,虽然这个样本量依然超过了领域内的平均样本量。各方法之间的差别随着样本量的提高而减少,虽然对于边和簇水平的分析来说,依然需要超过n=120的样本量才可以达到足够的效力。不过,选择哪种错误率控制方案也有影响;与采用FWER控制方案相比,采用FDR控制得到的效力提升更多,边水平的FDR控制方案可以取得超过采用FWER控制的簇水平的效力提升。对于较弱和较稀疏的真值图也观察到了类似的模式,只是整体效力较低。

我们还检查了效力足够的检测的效应比例(图2C)。在最典型的样本大小下(n=40),当使用边和簇级程序时,不超过四分之一的边达到了足够的效力。虽然这代表了大量的边(连接组的四分之一也有将近9000条边),但这也意味着超过四分之三的连接组无法被理想地检测到。相反,在n=40时,超过一般的网络级效应被检测到了,所有的全脑效应也都被检测到了。虽然方法之间的差异随着样本量增大而减小,但即便在最大样本量下,采用局部检测方法时,依然有超过一般的连接组达不到足够的效力水平。

图2  不同推理级别的效力

(A)效力的定义和一个伪数据的例子。除了簇水平,其他每个水平的推理过程都计算了效力,其中真阳性在边水平定义。伪数据仅显示了单次重复的结果,并仅计算了单个边(如只计算了下三角。NA表示不适用)。关键术语和符号定义的简略列表详见附录。(B-D)以下测量结果在三个样本量中显示,并在所有七个任务中取平均值。灰色虚线表示通常的β=80%的效力目标。

(B)检测效果的平均效力(如,对边水平,表示所有边的平均效力)。条形图高度表示所有任务的平均值,误差条形图表示任务的SEM。

(C)所有任务中超过每个效力级别的效应比例。

(D)效力和效应量的关系,其中中等效应量d=0.5由灰色虚线表示(图3B提供了效应大小分布)。

(E)通过矩阵和透明大脑(为了提高可视程度均匀选择了25%的节点进行稀疏化处理)显示n=80时情绪任务对比静息态的第五次重复的真阳性图示例。虽然边的显示用于说明解释结果的空间范围,但无法用特定边解释、而要在更大范围内解释的结果用红色圆圈标注。

MF,内侧额叶;FP,额顶;DMN,默认模式网络;Mot,运动区;

VI,视觉V1区;VII,视觉V2区;Vas,视觉联合皮层;Lim,边缘系统;

BG,基底神经节;CBL,小脑。
 

真实效应的空间范围如何影响效力

有几个因素有助于检测效果。最重要的是真实效应的空间范围与所用推理程序的匹配程度。我们估计了连接组的所有边的非零效应,也即与最大的推理范围相对应。平均而言,在任意任务间,大多数边(87%,FDR控制;66%,FWER控制)和网络(97%,FDR;82%,FWER)在进行任务态与静息态的单样本t检验时差异显著(P<0.05,双尾t检验;任务平均效应量见图3A;每个任务的效应量见图3C)。而且,全脑都有簇的分布;在适用簇决定的阈限时,只有一个正激活簇和一个负激活簇达到了大效应量(阈限是|d|>0.2,这两个簇的|d|>0.8,图3A);只有在采用一个非常大的阈限(|d|>1.0)时产生了不止两个簇,而且分布非常稀疏(2个正激活簇,3个负激活簇)。采用网络或者全脑分析能提高效应量(图3B),说明大脑大尺度区域的协同活动(58%的网络具有中等或大的效应量,边只有23%)。重要的是,在全样本中绝大多数效应都显著的事实说明估计真实情况效应符号是有意义的,因此支持了使用此作为效标是有效的。

然而,我们并没有期望整个连接组之间存在着简单的依赖性;网络也贡献了独特的信息。最初的Shen268网络明显比随机分布各个节点更加异构,说明某些信息可能在每个网络内共享,而不是在所有网络中共享(图3D)。尽管社区内和社区间效应存在显著差异,但社区内的边和社区间的边都不可互换;最初的社区内和社区间网络分别比在社区边缘内或社区边缘之间混合时更加异构(图3D)。Shen268分区也显示出与HCP中使用Louvain方法定义的分区相当多的重叠。因此,虽然Shen268网络中的池化是一种不通过手头的数据结构就能解释广泛的依赖性的相当简单的方法,但它在独立的HCP数据中也捕获了一些有意义的网络级结构。

错误率控制方式(FDR vs. FWER)如何影响了效力。一如预期,效力不仅随推理的尺度变化,也随错误率控制方式变化,FDR表现更好。进一步来说,相比于FWER,FDR更有可能检测到特定效应量(图2D)。事实上,只要把错误率控制方案从FWER调整为FDR就相当于被试量翻倍,例如对于中等大小的网络级效应,40名被试经过FDR矫正后的效应量大约与80名被试经过FWER矫正后的效应量相当。不过,FDR矫正对于相同的效应大小,无论推理水平如何,都提供了类似的效力。

影响效力和效应量的空间偏差。效应的空间分布在不同任务之间惊人地一致,与静息态相比,任务期间都表现出社区内,以及运动和视觉区域之间的功能连接降低(接近0)(图3 A和C)。因此,这些效应预计是基准测试期间最容易检测到的效应之一。不同任务对比之间的一致性主要是因为,尽管任务和静息态连接之间具有高度的相似性,但静息态也以一致的方式与每个任务不同。更长的静息态扫描时间会进一步增强任务和静息态之间的差异。

已经知道有更大效应的边倾向于有更大的效力;我们进一步通过检查效应量-效力曲线的残差探索了是否会有一些区域的效力独立于效应量。这揭示了与效应大小无关的效力空间偏差-即,对于相同的效应大小,与其他区域相比,在某些区域更可能检测到效应。具体而言,边(FDR)和簇级方法在小样本量下更可能检测皮质下和小脑网络的影响,但随着样本量的增加,这种小偏差减小。

图3  全样本数据集中效应的空间范围

(A)边、簇和网络级别的影响。边和网络水平显示了七项任务(任务-静息)的平均效应大小和显著效应的平均数量(P<0.05,双侧t检验,经Storey校正的FDR)。对于簇级别,使用平均的任务-静息效应大小来确定簇;显示了在|d|=0.8的阈值下幸存的所有边(即,d> 0.8且d<-0.8)并对相邻边的单独簇进行计数。同样,所有低于|d|=0.8的阈值只产生两个簇。在社区内,通常任务态低于静息态的连接由黄色虚线矩形突出显示。

(B)边水平(40个区间)、网络水平(20个区间)和全脑水平(即,汇集所有边;2个区间)的效应大小直方图。

(C)按任务划分的边和网络级效应。WM,工作记忆。

(D)网络之间的变异性。箱线图显示了每个网络中边的中值(红线)、四分位间距(IQR;蓝框)和异常值(红须;超过1.5×IQR)。F统计量量化了网络间和内部的方差,显著性通过1)混洗节点-社区成员身份(黑色)和2)混洗边来估计,同时保持社区内部和内部结构(绿色和橙色)。垂直线分隔网络内部和网络之间,水平线表示0。

特异性方面的成本:假阳性和定位效力。研究人员努力检测尽可能多的效应,同时防止出现“太多”假阳性。虽然“多少是太多”仍然是主观的,但与真阳性相比,观察到的假阳性很少。对于每个过程,少于0.5%的连接组出现假阳性(即<179个边;图4A),这构成了所有检测效应的不到1%(图4B)。也就是说,至少每100个真阳性观察到一个假阳性。正如预期的那样,FDR控制方法是最宽容的;FWER控制程序的FDR小得多(低于0.25%。在较弱和稀疏效应大小的真值图中发现了相同的模式,但正如预期的那样,在稀疏条件下发现了更多的假阳性。最稀疏的条件显示了最多的假阳性(高达连接组的3.1%),这是意料之中的,因为它可能将许多不可消除的效应视为零(在这种条件下,任何小于小效应大小d=0.2的都是零)。

 

图4  不同推理层次的特异性

除特殊说明,以下展示所有7项任务中平均样本量为n=80的状况

(A)假阳性的空间范围,定义为连接组显示假阳性的比例。

(B)FDR,定义为真阳性检测的比例。

(C)空间精度,定义为在同一方向上与全样本数据集效应重叠的探测比例。

(D)FWER,强(顶部)和弱(底部;使用假任务对比度获得),定义为至少有一个假阳性的重复百分比。FWER的预期95%CI以灰色突出显示,有效控制被定义为低于上限。

(E)通过矩阵、圆图和玻璃脑(无稀疏化)显示的第一次重复中情绪任务与静息态的假阳性图示例。

模拟数据示例仅显示单个重复的结果,并仅计算唯一边(例如,仅下三角)。图底部提供了关键术语和符号定义的简略列表。

另一种对研究人员来说有意义的特异性是空间特异性,即在空间上精确定位效应的能力。根据定义,推理范围更大会导致局部效应的确定性降低。在实践中,我们可以通过检测与真实边水平效应重叠的程度来估计空间精度被牺牲了多少。只有边和簇水平的结果显示与基础边水平效应完全或几乎完全重叠(图4C)。然而,网络级推理的不精确程度也没有达到不合理的底部∼所有检测到的网络中平均有70%的边反映了真实效果。对较弱和稀疏的全样本数据集观察到了类似的模式,只是稀疏性降低了所有方法的空间精度,而且影响网络级FDR方法最多,影响边和簇(基于网络的统计)FWER方法最少。

最后,至关重要的是,所有推理程序都能实现对误报的预期控制。FWER控制程序被设计为限制弱和强感FWER(即,当空值分别为在任何地方都真和在任何地方都非真时),而FDR控制程序被设置为限制FDR(作为推论,弱感FWER)。所有程序均达到有效控制(图4 B和D),未观察到假阳性的空间分布偏差。对于较弱和较稀疏的条件,只有最稀疏的实验未获得边和网络级方法的有效控制,这也符合预期,因为它可能将许多不可忽略的影响视为零。边和簇级别的方法可能还有一些改进的空间,这些方法在控制错误方面似乎过于保守。然而,更大尺度推理程序的效力提升不仅仅是因为相对更大的允许性;虽然网络级方法允许更多的错误,但全脑推理方法未观察到任何假阳性,尽管它的效力是100%。FWER和样本量之间没有观察到明确的关系,虽然簇和网络水平的方法在样本量最小时最为保守。最后,FDR和FWER控制方法在检查强的FWER结果时很明显;尤其是在边水平,控制FDR会导致在每次重复中发生最少一个假阳性,但这也只是在千万个边中错了一个而已。
 

讨论

 尽管焦点推理程序很受欢迎,但本研究的经验表明,解释大尺度依赖性的简单程序更好地反映了效应的空间范围,从而显著提高了效力。结合最近在大型深度任务激活数据集中的研究,这些结果表明,基于簇的推理可能只揭示了典型规模的任务型研究中真正广泛影响的冰山一角。目前的发现表明,对于许多需要优先考虑统计效力的典型研究而言,提升分析尺度可能是一条最佳的前进道路,但代价是特定性的相对适度降低。

功能连接推理尺度的含义。转向更广泛的研究尺度与传统的重点在局部的方法不同。事实上,还有建议认为要采用更严格的聚类确定阈值,以获得更加聚焦的推断。然而,目前的结果对焦点推理标准目标的实用性和意义提出了挑战。更大尺度的推理程序更适合检测想研究的效应,因为它们更好地匹配了各种任务中潜在的广泛分布的效应。这与直觉和证据是一致的,即像大脑这样复杂的器官不太可能有与许多研究的认知过程完全无关的区域。事实上,越来越多的证据表明,大脑过程的关键可观察方面运行在低维空间。在神经元水平上,脑区之间的复杂相互作用构成了在单个神经元水平上无法捕捉到的突发群体水平特性;类似的观察结果在神经成像中越来越普遍。

更分散的方法肯定有局限性。虽然我们发现它们在各种基于任务的环境中都是有益的,但它们可以掩盖个别领域中出现的独特信息。特别是,广泛结合信息的方法(最显著的是全脑过程)可能会在某些情况下(例如,源自特定区域的病理学)掩盖对真正的局部效应的检测,或阻碍发现用于干预的局部目标(例如,脑刺激)。此外,即使在效应广泛的情况下,更大范围的程序在空间精度上也受到了损失。然而,与效力增益相比,空间精度的下降似乎相对较小,特别是对于使用典型任务范式的典型规模研究。总的来说,我们认为,对于许多典型研究而言,网络级推理可能是朝着正确方向迈出的一步。网络级推理平衡了聚合广泛的权重效应和保留独特的网络特定信息。

将推理过程与空间扩展和多变量信号相匹配。很多方法可以被用于捕获分布的效应。最简单的选择之一是以大规模单变量方式在预先定义好的区域内汇集数据,如cNBS方法。如果期望汇集的变量是共享基础效应(如冗余)的随机实现,并且噪声在汇集的变量之间相对独立(并因此被平均掉),那么简单的汇集方法就可能是有用的,甚至可能比此处我们展示的方案更简单。如果研究者对满足以上条件很有信心,可以不用对p值进行非参数估计,直接采用参数估计(包括求边的组内平均)和进行多重比较矫正就可以。除此以外,还有很多自由度可以选择,比如图谱的选择,分区和数据聚合策略等。一个主要的考虑是怎样平衡利用大型数据集为较小的研究提供信息,同时还能得到此研究的特异性属性。小型研究会从先验分区中获得最大好处,因为它们最有可能低估效应的空间范围。虽然从许多可用的静息态网络定义中选择一个先验分区可能不总是合适,但证据表明这些网络的核心组成相当稳健,因此可能很多先验分区都会适用。还可以以假设驱动的方式将一些网络从评估中移除以提高效力,社区间网络可能就比较适合被删除,因为很多检验更多在社区间而不是社区内进行。

虽然预定义区域内的大规模单变量池具有简单的有点,但大脑数据的关系不太可能如此简单,这也可能是为什么采用约束池的机器学习方法通常性能较低的原因。采用结合了更复杂的多变量信息的方法可以提高预测模型的重测信度。虽然预定义区域内的大规模单变量池具有简单的优点,可以很容易地纳入研究工作流程,但大脑数据的依赖性不太可能如此简单。这可以解释采用约束池的机器学习方法的较低性能(25);这种方法可能比合并更有效地结合复杂的多变量信息(尽管更广泛的合并(25)和汇总(26)可以提高预测模型的测试-再测试可靠性)。人们可以选择使用更具原则性的方法(例如,结构方程建模、贝叶斯分析)基于先验期望明确地建模整个大脑的依赖性,或者从数据本身估计依赖性,并将其用于嵌套或(原则性)循环过程。请注意,更广泛的推理并不排除细粒度分析。事实上,簇级推理的设计者建议探索性研究从集合级推理开始,并采用不增加FWER的逐步下降方法细化推理;最近,“全分辨率推理框架”(All Resolutions Inference framwork)将其正式化。在更大推理水平得到的结果也可以用作起点,以便随后收集更多数据,进行更精细的局部化。合并不同尺度的信息也可能很有价值。也可以完全避免定位,直接利用许多统计和机器学习方法来捕获信号的低维、多变量特性(如多元学习所做的)

最后,如上所述,证据越来越多地表明,在广泛、多元影响的背景下,大规模零假设的琐碎性质。一个令人信服的选择是重新考虑传统的频度方法,并避免关于零假设的估计,而支持关于效应大小的估计,如置信集方法所做的那样(这也具有提供空间范围估计的优势)。或者,采用贝叶斯方法来表征基于先验证据的影响的完整分布。大型公开可用数据集可以为构建这些先验提供一些见地。总的来说,目前的结果仅仅是一个演示和一个起点,仅仅触及了什么样的推理过程可以用来解释依赖性和整合整个大脑的信息。

选择FDR而不是FWER控制方案。FDR控制程序提供了比FWER控制程序高得多的效力,因此采用FDR的局部推理实际上能取得比采用FWER的大范围推理更高的效力。正如理查德·费曼(Richard Feynman)的名言:“第一条原则是,你不能欺骗自己,你是最容易欺骗的人。”事实上,充分控制假阳性的问题困扰了费曼一段时间,特别是由于fMRI图像需要大量校正测试。然而,研究人员相对较少关注这样一个事实,即更严格的假阳性控制是以更高的假阴性(即,更低的效力和真阳性)为代价的。这两种类型的错误都会损害科学发现,因此,明智的做法是在两者之间进行权衡。当人们愿意接受更多的假阳性以获得更多的真阳性时,FDR控制是有益的。当空值处处为真时,则应采用FWER控制。

任务相关连接和(有限的)对其他上下文的泛化。大脑如何在任务和静息期间进行功能重组是一个主要的研究课题。如前所述,我们观察到静息态和任务态连接非常相似。然而,虽然任务之间的配对差异相对独特,但静息态以一致的方式与每个任务不同;社区内以及运动和视觉社区之间的任务连接普遍较低。以前的报告还表明,任务期间的集成度高于静息,并且随着认知需求的增加而增加,这表明认知更复杂的任务需要在执行独特功能的系统之间进行更多的协作。这些结果共同说明了认知要求较高的任务状态和要求较低的静息态之间的区别,这与认为静息态反映了任务相关状态的完整特点的普遍观点有所不同。

由于将任务与静息进行对比可能反映了一般性的需求特异性而非认知特异性效应,进行更加任务相关的研究可能有益,比如具有类似认知需求的任务。重要的是,较长的静息扫描持续时间增强了任务-静息差异,因此要注意扫描持续时间的差异,这可能会使效应对比偏向较长的(通常为静息)扫描。与任务数据相比,除了在得出任务特定结论时可能出错,静息态数据在预测行为方面也被证明是次优的。因此,静息态在功能连接分析中的作用值得仔细考虑。

更一般地说,效应的空间分布和大小将随着研究设计、统计模型、协变量等而发生显著变化。我们的目的是测试基准测试结果的稳健性,不仅包括各种任务,还评估较弱的效应大小和稀疏图。然而,在目前的研究中,还有无数的其他变化。扫描持续时间和实验次数尤其影响影响影响实验的可靠性和有效性。这些因素对研究效力的影响仍有待确定。

功能连接之外的数据含义。本研究部分得益于基于任务的激活图,因此,我们期望研究结果对任务相关的背景也会产生影响。虽然许多典型规模的基于激活的研究显示了局部区域的结果,但更大和更深入的研究显示,整个大脑都存在广泛的激活。因此,更大规模的推理预计也将有益于基于激活的研究。然而,在这种情况下组合复杂多变量信息的最佳策略仍有待确定。将区域分配给静息状态社区可能是一个开始,尽管这取决于在这些社区范围内共同激活的程度。像ICA这样的传统降维过程可以更好地反映手头数据中的共激活模式。虽然最能捕捉这种广泛信号的方法仍然是一个悬而未决的问题,但领域内越来越认识到,局部过程是小样本和历史推理过程的产物,只能反映真实效应的冰山一角。目前的工作为这一观点提供了间接支持。

除了神经成像之外,还有很多生物医学研究也难以在高维、依赖性数据和小单变量效应大小的情况下保持效力。神经科学中的许多其他模式现在被用于同时记录许多信号(例如,脑电图、光学成像),因此也可以进行空间相关观察。遗传学家也在探索捕捉广泛效应的方法,并将这些方法转化为神经成像。由于我们都面临着类似的问题,其他领域中评估和捕获依赖性的方法可能会有助于神经成像研究,神经成像中开发的方法可能反过来促进这些领域的发展。

总结

当领域内第一次探索超越体素水平的更强大推理过程时,簇级推理实现了许多重要发现。今天,比以往任何时候都更大的数据集和计算资源促进了基于对准确性和信号性质的更全面理解的统计过程的发展。在这里,我们强调了持续改进的一个重要途径,如下所示:使用旨在捕捉大脑中广泛的空间效应的推理程序,这提高了领域内基于常用样本数量的研究的效力。更一般地说,领域中公开可用数据集的显著增加提供了一个更好地描述信号元素的机会,从而为更典型的研究提供信息。随着我们从数据中学到更多,我们越来越有能力构建针对潜在信号的工具,这反过来又使我们更接近神经成像中更稳健和可重复的发现。
 

方法

      从HCP S1200版本获得的功能连接数据用于估计效力和FWER。对HCP提供的最小预处理数据进行进一步处理,以回归伪影,并获得Shen268图谱268个节点之间的z分数化的Pearson相关性的连通矩阵。

共有168个实验用于基准测试,包括7个推理程序、8个任务对比和3个组大小(n=40、80、120)。对于每个实验,配对样本测试用于7个真实任务与静息态的对比(任务=情绪、赌博、语言、运动、关系、社交、工作记忆;n=1021至1058)或一个假任务对比(两次静息态之间的对比)。在每次R=500重复时,对各组进行重新采样,然后进行推断。

用于在四个层次(边、网络、簇、全脑)中的每一个层次上执行推理的七个程序包括:

1)边:用于FWR校正的参数化过程(Bonferroni),其中显著边表示该边处具有效应;

2)边(FDR):用FDR校正的参数化过程(Storey),其中显著边表示该边处具有效应;

3)簇:用于具有基于置换的FWER校正的连接组中的簇级推理的NBS方法(2),其中显著的簇表示该簇内的至少一个边有效应;

4)簇(TFCE):无阈值NBS,用于具有基于置换的FWER校正的簇级推断的无阈值方法,其中显著边暗示与显著边相关联的所有簇中的至少一条边有效应;

5)网络:我们最近引入的用于网络级推断的cNBS方法,基于置换的网络级零假设估计,随后是参数FWR校正(Bonferroni),其中显著网络意味着对整个网络有影响(但不意味着对该网络内的任何边);

6) 网络(FDR):具有FDR校正的cNBS方法(Simes程序),其中显著网络意味着对整个网络的影响(但不是对该网络内的任何边);

7)全脑:我们在这里介绍的基于cNBS的全脑多变量推断的多变量cNBS统计(mv-cNBS),其中显著性检验意味着基于集合网络的多变量效应。

这包括一个标准程序和一个预期对每个级别都更有效力的程序,但全脑水平除外,因为全脑水平只使用了一个程序。对于除边级程序外的所有程序,均采用非参数(即置换)估计零分布,采用参数方法进行可行性分析。除全脑水平外,所有过程均采用一个单独的多变量统计进行单尾检验。Shen268图谱还被用于定义10个节点社区,用于划分cNBS和mv- CNBS。所有推理过程都已经被实现为Matlab NBS工具箱的扩展(除了NBS过程使用工具箱中实现的原始过程)。工具箱扩展可使用Matlab命令行运行。

对于每个重采样重复,真阳性被定义为在重采样过程中检测到的真实任务对比度的影响,其方向与全样本的真值效果相同,类似于在正确方向上进行的单边测试。假阳性被定义为与真实任务对比的基本真实性效应或假任务对比期间发现的任何效应方向相反的效应。然后估计了六个准确度指标,以探索真阳性和假阳性之间的平衡,如下:统计效力、假阳性的空间范围、假发现率、空间精度、强感觉FWER和弱感觉FWER(即,当空值处处为真时;这是唯一使用假任务对比度的指标)。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值