神经发育障碍结构性神经影像学的最佳实践

最新推荐文章于 2025-02-08 09:14:00 发布

思影科技

最新推荐文章于 2025-02-08 09:14:00 发布

阅读量645

点赞数

文章标签：算法人工智能

结构性磁共振成像（sMRI）为我们增进了解解剖学脑发展如何与神经发育障碍的临床症状和功能相关提供了巨大的潜力。临床发展性sMRI可能有助于识别可能最终协助诊断和治疗的神经生物学风险因素或标记物。然而，希望进行神经发育障碍sMRI研究的研究人员和临床医生面临几个方法论挑战。本文为临床发展性sMRI提供了实用指南。首先，我们介绍了脑形态计量指标，并回顾了整个青春期典型发展轨迹以及选定神经发育障碍中的非典型轨迹的证据。接下来，我们讨论了研究设计、图像获取和分析中的挑战和良好科学实践，以及最近实施质量控制的选项。最后，我们讨论了与统计分析和结果解释相关的选择。我们呼吁在方法报告中提高完整性和透明度，以推进对神经发育障碍中结构性脑变化的理解。本文发表在 Neuropsychology Review杂志。（可添加微信号19962074063或18983979082获取原文及补充材料，另思影提供免费文献下载服务，如需要也可添加此微信号入群，另思影脑影像分析业务，如感兴趣也可咨询)

引言

在过去二十年中，关于常见神经发育障碍的流行率、临床诊断和治疗的知识显著增加。例如，这些障碍包括注意力缺陷多动障碍（ADHD；流行率约6%；Barkley, 2014）、品行障碍（CD；流行率约3%；Canino等，2010）和对立违抗障碍（ODD；流行率约3%；Canino等，2010）。这些外化障碍经常持续到成年期，极大地影响生活质量（Kessler等，2005）。为了防止这些障碍的症状恶化和终身遭受这些障碍的痛苦，探究和理解它们复杂的神经生物学至关重要，这可能使得在儿童和青少年期间进行早期诊断、预防、预后和治疗成为可能。

当然，改善这些障碍的预防和治疗仍然面临几个挑战。首先，神经发育障碍的病因仍然大体未知，但可能包括从遗传（Blesson & Cohen, 2020）到表观遗传和环境影响（Nigg, 2012）的多种因素。此外，迄今为止，神经发育障碍是根据临床观察和来自儿童及其照顾者的报告进行表象定义和诊断的。然而，归入临床类别可能不符合个体的具体情况、问题和需求（Hyman, 2010）。因此，药物治疗和心理治疗并不适用于所有患者。因此，研究人员和临床医生应考虑神经生物学过程，与心理机制一起，以获得关于神经发育障碍更全面的图景（另见研究领域标准；RDoC，Sanislow等，2019）。一个极有价值的工具，有潜力识别神经生物学标记，并且有助于诊断和治疗的是结构性磁共振成像（sMRI）。sMRI允许研究人员和临床医生量化大脑形态测量的各个方面，如特定大脑结构和区域的大小和形状。通过展示神经发育障碍中的结构性大脑成熟如何偏离典型的发展轨迹，sMRI可能促进对障碍病因和发生的理解。除了增加对特定神经发育障碍神经生物学基础的知识，可能的研究和临床应用可能是直接比较和对比不同障碍和亚组中的大脑发育模式（见Opel等，2020），并解决跨诊断与障碍特异性发展异常的问题。此外，有人建议sMRI有一天甚至可能提供大脑生长图表，类似于现有的身高、体重和头围图表，这些图表可以在个体水平上使用，帮助早期识别正在发展的障碍。在这一领域，开创性的研究正在出现（Marquand等，2019）。例如，Dong等人（2020）分析了来自中国和美国两个加速纵向队列的数据，总共包括590名典型发育儿童的864次扫描，并生成了大脑体积生长图表。重要的是，观察到两个队列之间的某些生长差异。这种差异的两个可能原因是站点间的方法学差异和种族差异，这两个可能性在未来开发大脑生长图表的努力中需要更多关注。此外，在这种情况下，个体大脑发育差异，包括罕见的非典型发育轨迹，是感兴趣的，现有研究在样本大小或横断面设计方面仍然有限。为了使大脑生长图表有用，至少在某些情况下，可能需要反复扫描正在接受临床检查的个别儿童。这不仅可以提供与同龄儿童大脑结构变化的静态比较，而且还可以绘制他或她的大脑发育轨迹，类似于身体生长图表的典型使用方式。

为了实现这些目标，设计、实施和解释sMRI研究需要特别注意。首先，在制定假设和选择数据分析工具时，需要考虑不同大脑形态计量指标的理论基础。其次，招募患有神经发育障碍的儿童和青少年往往具有挑战性。第三，这些参与者在数据获取期间倾向于移动更多，这通常会在数据中产生伪影。尝试通过确保遵守、对研究人员进行有关运动的培训、控制数据质量和使用质量控制软件工具来最小化移动是重要步骤。进一步的重要挑战包括选择统计分析方法，包括为多重比较校正选择适当的阈值。在本文中，我们专注于中童年（5岁）到早期成年（24岁），因为由于几个方法论挑战，几乎没有关于早期儿童神经发育障碍的纵向sMRI数据。这些挑战包括管理参与者焦虑或过度移动的技术、如儿童适用设备的可用性等技术障碍，以及特殊的数据分析技术，如使用儿童脑图谱来划分大脑结构；如Raschle等人（2012）详细讨论的。此外，我们关注大脑的灰质和半自动处理工具FreeSurfer，但在适当时引用其他工具。

在概述常用于探测大脑形态计量的指标后，我们将回顾从儿童期到早期成年的典型神经发育以及选定神经发育障碍的结构性变化，即ADHD（注意力缺陷多动障碍）、CD（品行障碍）和ODD（对立违抗障碍）。这些常见的、以儿童期开始的外化障碍，例证了sMRI研究中神经发育障碍的关键挑战，如年龄较小和在扫描器中的过度活跃。对于关于较不常见但广泛研究的自闭症谱系障碍的结构性改变的综述，请参阅Bednarz和Kana（2018）以及Ecker等人（2015）。请注意，本文贯穿的方法论考虑不仅限于这些障碍，而是适用于神经发育障碍的广泛范围和典型发展的研究。

在本文中，我们提供了关于临床神经发育sMRI研究挑战的实用、始终如一的概述，包括如何改进实践的建议。我们将按照任何sMRI研究的时间顺序讨论这些挑战：研究设计、图像获取、图像处理、数据质量控制，最后是统计分析和解释。

大脑形态计量指标

为了展示大脑结构，T1加权序列显示了高信号（即较亮区域）用于脂肪含量，如白质，和低信号（即较暗区域）用于更多水分含量，如脑脊液、颅骨和灰质（Westbrook & Talbot, 2018）。灰质由神经元体、胶质细胞、树突、血管、细胞外空间、未髓鞘化和髓鞘化轴突组成。它位于大脑皮层的外层（大脑皮质），以及皮层下结构和小脑皮质中。白质主要由远程髓鞘化轴突组成，存在于大脑和小脑中（Mills & Tamnes, 2014）。由于大多数关于神经发育障碍的sMRI研究集中在灰质上，这也将是本文的主要焦点。

一种用于表征大脑结构中灰质体积和密度的既定方法是基于体素的形态计量（VBM；Ashburner & Friston, 2000）。然而，这些体积输出指标由一系列复杂的底层效应混合而成，这也引起了批评（Ashburner, 2009; Davatzikos, 2004）。接下来，我们将重点关注半自动工具（如FreeSurfer，Fischl, 2012）中的基于表面和体积的分析，这些工具允许单独调查几种形态计量指标（见文本框1）。关于VBM和基于表面分析之间主要差异的简短回顾，请参见Greve（2011）。

基于表面与基于体积（volume)的分析

FreeSurfer（Fischl, 2012）广泛使用、有详细文档、可免费获取（http://surfer.nmr.mgh.harvard.edu/）并且得到神经影像学社区的广泛支持。FreeSurfer在两个处理流程中计算各种形态计量指标：一个基于表面的流程和一个基于体积的流程（见文本框1和图1，了解这些指标的概述、它们的计算和格式）。皮层表面重建（图1左侧）基于皮层表面的几何模型和某些组织类型之间边界的识别（在Dale等人，1999年的工作中详细描述）。软脑膜与皮层灰质之间的边界形成了脑皮层表面（图1中的中蓝色），而皮层灰质与白质之间的边界代表了白质表面（图1中的浅蓝色）。皮层进一步被模拟为一个由三角形网格构成的表面（图1中未显示）。每个三角形的交点（称为顶点）都有确切的坐标，这允许进行各种非线性操作，如膨胀，以执行空间标准化和群体分析，并改善可视化。这些重建允许区分皮层体积、厚度、表面积、平均曲率和局部回模式。对于皮层厚度（图1中的绿松石色），FreeSurfer计算了脑皮层和白质表面之间的距离（Fischl & Dale, 2000）。皮层体积代表皮层厚度和表面积的乘积（图1中的灰色）。局部回指数在表面上的每个顶点处量化回旋，使用一个围绕每个顶点的圆形兴趣区域（ROI；20到25毫米）以3D方式计算（Schaer等人，2008）。近期研究指出不同的皮层形态计量指标具有不同的遗传、认知和临床相关性（Nissim等人，2017；Raznahan等人，2011；Winkler等人，2010），强调了它们的独立发展。

图1 概述结构性大脑指标。

展示了个体大脑冠状切片，指出了在FreeSurfer中实现的基于表面（左侧）和基于体积（volume)（右侧）处理流的指标。图中显示了皮层下结构：尾状核（蓝灰色）、丘脑（绿色）、壳核（品红色）、苍白球（深天蓝色）、杏仁核（青色）和海马体（黄色）。黑色代表脑脊液。胼胝体和脑室未标记。出于示意目的，图形和缩放被简化。

基于体积（volime)的处理流（图1右侧）在分析T1加权原始数据时应用了五个阶段（Fischl等人，2002，2004），并且与基于表面的处理流程独立开发。它根据体素强度和概率图，为脑部去颅后掩模中的皮层和皮层下组织的每个体素进行标记。因此，计算了皮层下结构（例如尾状核、丘脑、壳核、苍白球、杏仁核和海马体）、小脑灰质和白质、皮层灰质和大脑白质的体积（见图1）。FreeSurfer还计算了“估计的总颅内体积”（eTIV；也称为颅内体积或ICV），使用一个代表性的图谱模板和图谱缩放因子（ASF），后者代表“为了将每个个体配准到模板所需的整个大脑体积扩张（或收缩）”（Buckner等人，2004，第725页）。关于eTIV的可视化，请参见Buckner等人（2004，第728页）的图3。这个指标也可以在横断面比较研究中用来调整个体大脑大小的差异（见统计分析部分）。或者，也可以使用整个大脑体积进行调整。通常，通过求和灰质和白质体积来计算，不包括脑干。然而，整个大脑体积可能因研究者选择是否包括非大脑物质（如脑脊液、脑室和脉络丛）而有所不同。

还存在其他半自动化工具，分析上述几个指标，例如，AFNI（https://afni.nimh.nih.gov/）、Brain Visa（brainvisa.info）、Brain Voyager（brainvoyager.com）、CARET（brainvis.wustl.edu/wiki/index.php/Main_Page）、CAT12（http://www.neuro.uni-jena.de/cat/）、FSL（https://fsl.fmrib.ox.ac.uk/fsl/fslwiki）和MindBoggle（https://mindboggle.info/）。有关概述，请参见Mills和Tamnes（2014）以及Popescu等人（2016）。此外，像人类连接组计划（HPC）管道（Glasser等人，2013）这样的处理流程结合了多个工具，以便于进行多模态神经成像分析，包括sMRI、静息状态MRI、任务功能MRI和弥散MRI。

文本框1. FreeSurfer提供的大脑形态计量指标（Fischl, 2012）。

基于图谱的空间标准化

估计的总颅内体积（eTIV）也称为颅内体积（ICV）；在横断面群体比较中分析皮层体积、皮层下体积和表面积时，可用于全脑大小调整。以立方毫米（mm³）或毫升（ml）报告。

基于表面的分析

大脑表面的面积，跨越两个具有相同拓扑结构的指标：

白质表面（内表面积）：白质和灰质之间边界的面积。以平方毫米（mm²）报告。
脑皮层表面（外表面积）：灰质和软脑膜之间边界的面积。以平方毫米（mm²）报告。

皮层厚度

白质表面和脑皮层表面之间的距离；通过找到对面表面上最近的点来计算。以毫米（mm）报告。

皮层灰质体积也称为皮质体积

代表脑皮层表面内的体积减去白质表面内的体积减去带内非皮层部分的组织（例如海马体）。以立方毫米（mm³）或毫升（ml）报告。

平均曲率

皮层折叠程度的指标，曲率增加表示折叠增加；通过白质或脑皮层表面两个主要曲率的平均值计算；以1/r度量，其中r是内切圆的半径。以毫米的负一次方（mm^-1）报告。

局部回指数

量化与外部可见皮层相比，沟回折叠中埋藏的皮层数量；广泛的折叠表明高回旋指数，而有限的折叠表明低回旋指数。无单位。

基于体积的分析

皮层下体积各种分割的皮层下结构（例如尾状核、丘脑、壳核、苍白球、杏仁核、海马体、脑室下部和黑质）的灰质体积。以立方毫米（mm³）或毫升（ml）报告。

小脑灰质和白质体积

小脑的灰质和白质体积。以立方毫米（mm³）或毫升（ml）报告。

皮层灰质体积

也称为皮质体积；所有皮层标签体素的总和。以立方毫米（mm³）或毫升（ml）报告。

大脑白质体积

白质表面内的总体积减去非白质部分，不包括小脑白质和脑干。以立方毫米（mm³）或毫升（ml）报告。

典型与非典型的结构性大脑发育

追踪结构性大脑变化并理解神经发育障碍背后的机制的目标要求研究人员和临床医生首先描述典型的神经发展。皮层和皮层下形态计量的组成部分在儿童期到青春期以及早期成年期沿着不同的轨迹发展（参见例如 Herting et al., 2018; Tamnes et al., 2017; Vijayakumar et al., 2016）。在下一节中，我们首先将回顾典型的神经发育轨迹，随后回顾外化障碍ADHD、CD和ODD的变化。有关各种大脑测量的典型神经发育轨迹的更多细节和示意图，我们参考Mills和Tamnes（2014）。

典型的结构性大脑发育

Mills等人（2016）在四个纵向样本中识别了整个大脑体积（这里是白质和灰质包括小脑的综合测量）和eTIV（使用缩放因子的基于图谱的空间标准化程序）的不同轨迹。虽然整个大脑体积在儿童期增加，在13岁达到峰值，随后在青春期逐渐减少并在二十岁早期稳定，但eTIV在晚儿童期到中青春期之间显示出每年约一个百分比的增加，随后在晚青春期稳定（Mills等，2016）。

皮层灰质体积，包括皮层厚度和表面积，遵循一个倒U形轨迹，即在早期儿童期增加，随后在晚儿童期和青春期以及成年期减少（Gilmore et al., 2012; Mills et al., 2016）。从儿童期到成年期的灰质体积减少似乎主要是由皮层厚度的减少驱动的（Storsve et al., 2014; Tamnes et al., 2017）。根据开创性研究，服务于主要功能的区域，如视觉和运动皮层显示较早的灰质峰值，而在高级联合区域如前额叶和颞叶皮层的峰值则出现得更晚（Gogtay et al., 2004; Sowell et al., 2004）。然而，更近期的纵向研究并未复制出在晚儿童期或青春期的灰质峰值。相反，结果表明灰质体积在8岁之前最高（Mills et al., 2016），在第二个十年期间减少（Tamnes et al., 2013; Wierenga et al., 2014），并在第三个十年稳定（Mills et al., 2016）。对于皮层厚度，近期研究报告了从儿童期到早期成年期的单调减少（Tamnes et al., 2017; Walhovd et al., 2017）。一般来说，与皮层厚度和体积相比，皮层表面积显示出较小的变化（Tamnes et al., 2017）。直到大约9岁的年龄，表面积增加（Wierenga et al., 2014），随后在青春期稳定或相对较小减少（Amlien et al., 2016; Tamnes et al., 2017; Vijayakumar et al., 2016; Wierenga et al., 2014）。尽管皮层折叠是人脑最显著的特征之一，但关于皮层折叠的发展和作用的统一模型尚不存在。最初，皮层形状被视为潜在的连接模式的产物（见基于轴突张力的卷曲发展模型；Essen, 1997）。然而，更近期的关于皮层折叠发展的调查关注遗传影响（Alexander-Bloch et al., 2020），以及机械（硬度和弹性）和细胞机制（Llinares-Benadero & Borrell, 2019）。到目前为止，只有少数研究调查了曲率和回旋模式的发展。这些研究大多发现从儿童期到成年期回旋减少（Mutlu et al., 2013; Raznahan et al., 2011）。关于皮层下脑结构，基底神经节（即尾状核、壳核和苍白球）、伏隔核和小脑灰质体积从8岁到22岁显示出体积减少（Tamnes et al., 2013），而杏仁核和海马体在青春期似乎随年龄增加（Durston et al., 2001; Giedd et al., 1996）或显示出很少或没有变化（Tamnes et al., 2013）。与这些数据一致，最近的一项研究报告了从10岁到22岁海马体和杏仁核体积的轻微非线性增加（Herting et al., 2018）。与皮层、皮层下和小脑灰质体积大多在青春期减少不同，白质体积已显示在儿童期和青春期增加，并可能进一步增加（Mills et al., 2016; Westlye et al., 2010）。

尽管纵向研究是黄金标准，并在近年来广泛用于描述发展，请注意存在矛盾的发现。这些可能源自纵向项目的特定方法学挑战，如年龄范围、评估次数、样本特征、图像处理技术和纵向统计分析方法。这些挑战和最佳实践最近由Vijayakumar等人（2018）回顾。

与典型发展相比，几乎所有关于神经发育障碍ADHD、CD和ODD的研究都是横断面研究，即关注患者和对照组之间的年龄独立或年龄相关差异，而非发展差异（但参见Shaw等人在2012、2013、2014年的纵向研究）。总体而言，神经发育障碍的典型变化出现在皮层和皮层下指标上（参见例如ADHD的元分析：Hoogman et al., 2017; Nakao et al., 2011以及CD或ODD的元分析：Noordermeer et al., 2016）。请注意，这些神经发育障碍的结果因大多数研究中ADHD与CD或ODD的高共病率而有偏差，这使得解释复杂化（Vetter et al., 2020）。

对于ADHD，最近发现eTIV减少了5%（Vetter et al., 2020），以及总大脑体积减少了2.5%（Greven et al., 2015）。关于皮层灰质体积，一项针对CD或ODD的儿童和青少年的元分析揭示了双侧岛叶和左侧中/上额叶回体积的减少，可能表明CD或ODD中执行功能（例如情绪处理、同理心和内省）的受损（Noordermeer et al., 2016）。在ADHD中，研究表明前额皮层的体积减少（Ambrosino et al., 2017），但也有增加的报道（Semrud-Clikeman et al., 2014）。此外，ADHD中前额区域皮层变薄的延迟被解释为对认知控制过程（包括注意和运动规划）重要的区域的成熟延迟（Shaw et al., 2007）。CD的儿童和青少年显示出顶叶、中央旁小叶、楔前叶（Hyatt et al., 2012）和上颞皮层的皮层厚度减少（Wallace et al., 2014）。后者区域的厚度也与冷漠-无情特质相关，这是精神病态的核心情感成分（Wallace et al., 2014）。关于表面积，ADHD的儿童和青少年发现总体、前额、颞叶和顶叶区域减少（Noordermeer et al., 2017），以及前额皮层表面积的发展轨迹延迟（Shaw et al., 2012）。对于CD或ODD，报告了前额表面积减少（Fairchild et al., 2015; Sarkar et al., 2015）或没有表面积变化（Wallace et al., 2014）。此外，Shaw等（2012）报道在10岁到18岁的ADHD儿童和青少年中没有发现皮层回旋化的改变，无论是基线回旋化还是发展轨迹。类似地，未发现ADHD青少年的内在曲率和局部回旋指数的发展轨迹有变化（Forde et al., 2017）。对于22名CD的儿童和青少年，在右侧腹内侧前额皮层显示出回旋减少（Wallace et al., 2014），但这一发现在群集校正后并未保持。此外，Hyatt等（2012）在类似样本中发现了广泛的折叠缺陷，主要位于前脑区域，包括左侧前岛叶皮层。与躯体标记假说一致，这一区域的改变可能与主观感觉和同理心形成的缺陷相关（Medford & Critchley, 2010）。关于白质体积，无论是ADHD还是CD，都未发现改变（Greven et al., 2015; Stevens & Haney-Caron, 2012）。

对于皮层下脑结构，一项涵盖1713名年龄在4到63岁之间的ADHD参与者的大型分析发现，杏仁核、伏隔核、海马体和壳核的体积减少（Hoogman et al., 2017）。在这里，最大的效应出现在杏仁核，这强调了情绪调节障碍在ADHD中的作用（Hoogman et al., 2017）。在CD或ODD的儿童中，纹状体、杏仁核和海马体的体积减少（Noordermeer et al., 2017; Rogers & Brito, 2016）似乎反映了情绪处理和决策制定的缺陷。总而言之，有证据表明，像ADHD和CD或ODD这样的神经发育障碍的儿童和青少年中存在皮层和皮层下结构的改变。受影响的区域似乎反映了每种障碍症状背后的不同机制，即ADHD中的注意过程、运动规划和情绪调节，以及CD和ODD中的同理心、内省和情绪处理。

然而，大样本的纵向研究大多缺失，这在一定程度上可能是由于进行患者群体纵向研究所涉及的挑战。然而，迫切需要纵向研究来探究神经发育障碍的大脑发育轨迹，无论是在群体还是个体层面，因为这些可能会产生与测试年龄效应的病例对照研究不同的结果（参见关于横断面设计限制的讨论，例如Kraemer et al., 2000）。纵向研究需要向我们提供关于神经发育障碍中结构性大脑改变的本体发生信息，并最终跟踪具有精神病理学风险因素或临床诊断的个体的发展轨迹。

最后，尤其是在试图解开不同大脑结构指标在非典型神经发育中的独特作用时，许多发现仍然不确定。不同的发现可能由于图像获取、图像数据处理和统计分析的方法学异质性等多种原因产生。因此，我们现在将提出指导方针，目的是帮助临床研究人员改进他们的实践，并最终为该领域获得更稳健、可跨研究比较的结果。在文本框2中，我们包括了研究设计和图像获取与分析、质量控制以及统计分析的重要考虑事项的非详尽总结，这适用于所有临床发展结构性神经影像研究。

文本框2. 临床发展sMRI研究中报告方法学细节的指南

研究设计

✓ 在招募期间考虑样本的普遍性，并报告详细信息（例如年龄、智商、社会经济地位、青春期状态和种族）

✓ 报告身体和精神疾病的共病情况

✓ 对于患者组：

报告（之前的）药物和治疗的特点，神经发育障碍的发病年龄和病程

报告诊断程序

• 由谁以及如何确认（例如通过注册心理学家或研究人员的问卷和临床访谈）

• 定义临床心理病理学的截断值

• 指明亚型和严重程度

✓ 根据性别和年龄等匹配组别；提供匹配策略的信息

✓ 提供缺失数据的信息（例如问卷、药物状态、智商）

图像获取

✓ 实施并报告协议以提高舒适度从而减少头动

✓ 报告参与者的头动情况

✓ 考虑采用获取技术（例如fMRI作为代理、PROMO）进行头动校正

✓ 避免在不同地点和参与者之间更改扫描仪硬件、序列和协议

如果不可能，需要在所有分析中考虑差异

图像处理和质量控制

✓ 在一项研究内对所有参与者使用相同的软件（和版本）并报告详情

✓ 优先选择覆盖大脑指标和感兴趣区域的软件，基于文献和假设预先选择这些，并报告详情 ✓ 报告质量控制程序。

使用排除标准检查原始和处理后图像的质量
质量控制过程中使用的工具或算法
手动更改/故障排除技术

统计分析

✓ 考虑性别、年龄和全脑大小等作为协变量

如果对全脑大小进行校正：

• 报告所使用的大脑指标和校正方法

报告原始和校正后的区域大脑测量结果
考虑性别、年龄和全脑大小之间的关系

✓ 通过以下方式适当考虑数据的多变量性：
应用建议的阈值校正多重比较
进行多变量分析

结论

✓ 在分析技术的界限内解释发现，并与执行的统计分析保持一致（例如，如果结果经过全脑大小调整，则作为相对差异解释）

成功的临床发展结构性神经影像研究步骤

研究设计研究设计的决策取决于临床发展sMRI研究的目标（Greene et al., 2016）。如果旨在理解某一障碍的潜在机制，“纯净”的样本，即那些未接受药物或治疗、仅表现出所关注的神经发育障碍症状的参与者，是更可取的（Greene et al., 2016）。然而，这通常是不可行的，因为大多数神经发育障碍患者都接受了某种治疗。此外，更自然的样本允许调查治疗效果（例如药物）。进一步，调查神经发育障碍的研究通常无法包括足够大的患者组以比较重要的、可能的混杂变量（如障碍亚型、共病、药物和其他治疗）的效果。在此阶段就招募和研究重点做出的决策将极大地影响进行统计分析和可靠解释结果的能力。

临床神经发育sMRI研究的研究设计挑战已经在其他地方详细讨论过，涵盖了参与者纳入、样本组成（样本大小、功能高低的参与者、亚型和共病）、药物和其他治疗历史，以及对照组的考虑（Bednarz & Kana, 2018; Greene et al., 2016）。因此，我们友善地引用这些出版物。关于统计功效以及选择性、小型或非代表性样本的讨论，请参考Klapwijk et al.（2019a, 2019b）。我们将进一步提出图像获取、质量控制和图像处理的考虑事项。

图像获取和即时质量控制

大多数包括MRI检查（例如功能性任务基础/静息状态MRI或扩散MRI）的研究也默认运行T1加权序列，以检查神经解剖异常并进行数据共配准。FreeSurfer Wiki推荐用于FreeSurfer处理流程的T1加权序列获取协议。与旨在监测大脑活动的功能性MRI不同，测量大脑形态计量在一次MRI会话中并不对时间敏感。此外，典型序列的获取时间（≈1毫米等距）相对较短（5-10分钟），用户可以在扫描完成后立即检查T1加权图像的质量。因此，如果数据质量不满意，这样的短T1加权序列通常可以重复（另见Backhausen et al., 2016），并且在MRI会话计划中包含15分钟的时间缓冲可以帮助减少像神经发育障碍的儿童和青少年这样的挑战样本中的数据损失。因此，位于扫描仪现场的人员应了解不同类型的伪影（主要是技术和运动伪影）及其对数据的影响，以便能够识别受损的数据质量并决定是否需要重新扫描。技术伪影包括头部覆盖、射频噪声、信号不均匀性和易感性（Costa et al., 2009; Reuter et al., 2015; Wood & Henkelman, 1985）。运动伪影是由参与者吞咽、眨眼、咀嚼、转身、抖动或重新定位肢体引起的（Bellon et al., 1986; Zaitsev et al., 2015）。较年轻的年龄组倾向于产生更多的运动伪影（Blumenthal et al., 2002; Satterthwaite et al., 2013; Van Dijk et al., 2012; Yuan et al., 2009）。此外，神经发育障碍的儿童和青少年的图像可能特别容易受到运动伪影的影响，因为症状本身（参见ADHD：Backhausen et al., 2016; Rauch, 2005; Vetter et al., 2020，以及CD：Huebner et al., 2008）。我们的研究小组最近证明，当应用系统和详细的工作流程时，可以在ADHD和CD或ODD等临床发展样本中获取高质量的结构数据（Backhausen et al., 2016）。减少运动的另一个重要程序是通过适合年龄的指令、电影片段、像“雕像游戏”这样的游戏方法或使用模拟扫描器（Raschle et al., 2009），让参与者理解并练习保持静止的重要性。这些准备甚至可以以个性化的熟悉化策略和奖励的形式进行，以使神经发育障碍的儿童和青少年更好地适应MRI扫描环境并确保高质量图像（Pua et al., 2020）。

此外，存在前瞻性运动校正（PMC）技术，这些技术在扫描过程中追踪参与者的头部运动（例如通过体积导航器）并修改脉冲序列以校正参与者运动（Tisdall et al., 2016）。针对三大扫描仪制造商的特定PMC技术包括GE的PROMO（White et al., 2010）以及Siemens（Zaitsev et al., 2006）和Philips（Ooi et al., 2009）的运动追踪系统。为了评估PMC的成本和收益，最近的一项研究比较了传统磁化准备快速梯度回波（MPRAGE）与MPRAGE结合PMC在发展数据集中的可靠性和质量（Ai et al., 2020）。他们报告了在与传统MPRAGE相比，PMC扫描中的内序列可靠性更高但质量指标较差，并指出PMC扫描虽然稳健但并非完全抵抗高头部运动（Ai et al., 2020）。总之，Ai等人（2020）推荐在可以预期增加运动的高动能人群（即儿童、神经发育障碍患者）中使用。

尽管如此，根据我们的经验，在sMRI研究的不同阶段可以并且应该评估数据质量。首先，在进行结构扫描后在扫描仪控制台检查获取的图像，以便在需要和可能的情况下重新扫描。其次，根据标准评级系统或使用自动化方法对获取的原始T1加权数据集的数据质量进行视觉评级；第三，在数据集处理后再次检查，同样可以使用视觉或自动化方法（参见下文和Backhausen et al. (2016)对详细工作流程的建议）。

图像获取的另一个重要问题是可靠性，即MRI衍生输出指标的总体一致性。可靠性可能因MRI扫描仪、场强和头部线圈而异（Heinen et al., 2016）。由于更高的场强可以提高信噪比和空间分辨率（Tijssen et al., 2009），与1.5特斯拉MRI扫描仪相比，3特斯拉MRI扫描仪更为可取。更近期，由于提供了更高的信噪比、对比噪声比和相对于较低磁场更高的空间分辨率，已经开始使用超高场7特斯拉MRI（Barisano et al., 2018）。尽管7特斯拉MRI扫描仪于2017年10月被FDA批准用于临床使用（Barisano et al., 2018），并且一些研究，包括人类连接组终身（https://www.humanconnectome.org/study-hcp-lifespan-pilot/phase1b-pilot-parameters），已经成功地在7特斯拉MRI上对8岁及以上的儿童进行了成像（尽管不是结构性MRI，而是收集静息状态和扩散MRI），但3特斯拉MRI在全球范围内使用更为广泛。此外，7特斯拉人脑成像仍然存在一些限制并面临技术挑战，包括增加的特定吸收率（SAR）和对不均匀性和运动伪影的增加敏感性（Barisano et al., 2018）。参与者保护也是独特的，鉴于可能增加的恶心、幽闭恐惧症或眩晕。随着磁共振技术的进步解决这些问题，3特斯拉的主流成像最终可能被7特斯拉协议所取代。无论场强如何，MRI技术人员或物理学家应定期进行数据质量检查（例如信噪比）以确保机器特性和性能稳定。至关重要的是，所有参与者都使用相同的硬件、软件和MRI序列进行扫描，以避免增加变异性甚至系统偏差。如果不可避免，应估计这些效应并在统计上予以考虑（Lee et al., 2019），要么通过在统计分析中包含站点、扫描仪或序列作为协变量，要么通过应用为多站点协调开发的工具。最近的算法ComBat消除了与MRI扫描仪不同属性相关的非生物学变异性，从横断面（Fortin et al., 2018）和纵向研究（Beer et al., 2020）的皮层厚度数据中，这可能增加后续统计分析的功效和可重复性。

图像处理

选择sMRI数据处理工具取决于研究问题以及感兴趣的区域或指标。由于工具在重建算法和脑图谱方面的差异，了解ROI（感兴趣区域）分析可用的脑区域的具体命名法非常重要。重要的是，尽管所有工具似乎提供自动处理，但都需要彻底的质量控制和其他“手动”决策。因此，我们将它们称为“半自动”。

如前所述，FreeSurfer（Fischl, 2012）计算基于体积的和基于表面的指标。通过使用非线性变换，皮层测量被空间重采样到标准的基于表面的模板（fsaverage）上，该模板代表一个平均大脑（Sabuncu等，2014）。默认情况下，FreeSurfer使用两个标准图谱的选项提供这些估计的输出：Destrieux图谱（Destrieux等，2010）和Desikan-Killiany图谱（Desikan等，2006；见图2）。在成人中，使用Desikan-Kiliany图谱进行测试-重测信度往往比使用Destrieux图谱时要高（Iscan等，2015）；尽管据我们所知，尚未在儿童和青少年中进行过类似的比较。

图2.基于ROI与FreeSurfer实现的表面顶点逐一分析法的对比。

基于ROI的方法描绘了右半球外侧部分与Desikan-Killiany图谱区域（左图）和表面顶点逐一分析法（右图）用于临床发展sMRI数据的统计分析。半球被膨胀以更好地查看回和沟。右图中的蓝色区域突出显示了两组之间皮层厚度有显著差异的区域，该区域部分位于三角叶和喙中额叶皮层，如Desikan-Killiany图谱区域轮廓所示。使用基于ROI的方法，这种差异可能会也可能不会导致喙中额叶皮层、三角叶或岛盖部皮层的显著皮层厚度差异，而没有可能更精确地定位该区域。OP = 岛盖部；RMF = 喙中额叶皮层；PT = 三角叶。

对于每位参与者有多个数据集的情况，研究人员和临床医生应使用FreeSurfer的纵向流程（Reuter et al., 2010）。这一流程包括三个步骤的表面和体积基图像处理：1) CROSS：横断面数据集的处理，2) BASE：模板创建，以及3) LONG：使用来自BASE模板的信息重新分析横断面数据集。与传统的横断面分析流程相比，这一过程提高了鲁棒性（Jovicich et al., 2013）。

总而言之，研究人员和临床医生需要记住，输出指标和命名法在不同的图像处理工具及其大脑图谱之间有所不同，这使得结果的解释变得复杂。因此，在比较临床发展样本中结构性改变的结果时，考虑用于基于ROI的分析的大脑区域的大小和位置及其与在不同半自动化处理工具中实现的其他大脑图谱中的类似区域的比较是至关重要的。此外，对于所有神经影像学研究，但或许特别是对于发展性临床sMRI，下一个重要步骤是检查数据以确保数据质量良好，从而获得有效结果。因此，我们将在下一段介绍原始数据和处理数据的质量控制的考虑事项。

图像采集后的质量控制

糟糕的图像质量可能导致使用半自动化工具进行的图像重建质量差，重要的是，可能会低估灰质体积和皮层厚度（Backhausen et al., 2016; Blumenthal et al., 2002; Reuter et al., 2015）。一项研究还展示了质量控制程序对发育轨迹的影响，当应用更严格的质量控制而非标准形式时，5至22岁之间皮层厚度的二次轨迹就无法被识别（Ducharme et al., 2016）。因此，在临床发展sMRI研究中实施严格的质量控制程序至关重要，以防止对病例-对照差异或发展轨迹的偏见结果。

传统的质量控制程序包括对原始或处理后的T1加权图像进行视觉检查，不知道病人与对照参与者以减少固有偏见。首先，根据包括几个质量标记的评级系统（例如，模糊、振铃、灰质和白质边界以及皮下结构的信噪比，参见Backhausen et al., 2016提出的评级系统）评估它们，然后将扫描分为类别（例如，根据Backhausen et al., 2016; Reuter et al., 2015的“通过”、“警告”或“失败”）。那些被分类为“失败”的扫描应该从进一步的数据分析中排除。基于这些评级系统实施视觉质量控制可能具有挑战性，因为它通常需要经验丰富的评估者并且特别耗时，尤其是对于大型数据集。然而，需要强调增加透明度和质量控制协议的详细报告的必要性，因为到目前为止，许多先前的研究没有包括任何质量控制的描述（Vijayakumar et al., 2018）。可以说，视觉质量控制的评估者间以及评估者内变异性通常较高，但仍可能导致包含质量差的扫描和排除可用质量的扫描（Klapwijk et al., 2019a, 2019b）。在尝试扩展传统视觉质量控制的基础上，我们在表1中提出了一系列最近开发的技术的非详尽选择。它们就质量控制输入措施、视觉质量控制和分类器类别、技术、质量控制输出和性能进行了评估。

表1 sMRI数据的质量控制方法

表1中展示的第一种方法使用标准FreeSurfer输出中的欧拉数作为皮层重建质量的代理指标。它代表了在使用FreeSurfer流程重建结构数据集时表面重新镶嵌步骤中可能出现的拓扑缺陷数量。欧拉数为2（与球体相同）表示光滑的皮层重建。然而，正如Fischl, Liu, & Dale (2001)所述，在重建过程中可能出现两种类型的缺陷，称为“洞”和“把手”。洞由白质平面片中的小穿孔组成，把手是皮质中非相邻点之间的桥接。每一种类型的缺陷都会降低欧拉数，而FreeSurfer在后续的拓扑修正步骤中寻求将欧拉特性最大化到2的值。这一质量措施最近被发现与样本中的视觉质量控制评级一致相关，能够高度准确地识别出被人类评价者评为“不可用”的图像（曲线下面积(AUC)：0.98–0.99；Rosen et al., 2018）。Rosen et al. (2018)报道了欧拉数的z分数，并建议研究者为每个特定的数据集确定分类阈值。Yu et al. (2018)采用了这种方法，根据左右半球的平均欧拉数识别出三个异常案例，因此将它们从进一步的分析中排除。这里，Yu et al. (2018)将异常值的阈值设定为平均欧拉数低于样本均值3.29个标准差。

此外，逐帧位移(FD)方法使用功能性MRI扫描的头部移动参数（每个个体计算的平均FD；Power et al., 2014）作为同一扫描会话中结构扫描期间移动的代理指标（Savalia et al., 2017）。由于FD来源于功能性扫描输出，与可能带有主观性的定性视觉质量控制评级相比，它可以被视为一种客观的定量质量措施。试图通过此方法识别并减少潜在的运动引起的偏差。在功能性扫描中显示出过度头部移动且在结构性扫描本身上具有差视觉质量控制评级的个体可以被“标记”并随后从进一步的统计分析中移除。尽管如此，从功能性扫描得出的测量仍是不精确的估计，因为参与者在扫描会话中的移动严重程度可能会有所不同。

使用自动化机器学习算法，MRI质量控制工具（MRIQC; Esteban et al., 2017）从原始T1加权图像中提取64个图像质量指标（IQM），包括图像中的变异性和特定伪影的测量，并给出是否包含或排除每个图像的建议。该工具还提供包括计算出的IQM和元数据在内的个人解剖结构报告，以及一系列旨在协助结构图像视觉评估的图像马赛克和图表。MRIQC可以通过OpenNeuro.org门户网站的Web界面免费在线访问。此外，源代码通过GitHub（https://github.com/poldracklab/mriqc）公开访问，提供了最大程度的透明度。

此外，监督学习模型Qoala-T工具（Klapwijk et al., 2019a, 2019b）从FreeSurfer处理的指标中预测手动质量控制评级，这些指标包括欧拉数（即FreeSurfer输出文件中的“表面洞”），以及皮下体积、皮层厚度和皮层表面估计。研究人员可以选择使用Qoala-T提供的BrainTime数据模型来预测扫描质量，或者使用自己数据集的评级来训练算法。Qoala-T为每个个体扫描提供从0到100的分数（建议将分数小于50的扫描从进一步分析中排除）。然而，由于该算法最初是基于主观视觉质量控制评级进行训练的，作者建议对分数在30到70之间的扫描进行视觉检查，因为被误分类的扫描更有可能落在这些范围内（Klapwijk et al., 2019a, 2019b）。使用Qoala-T工具可以大大减少质量控制所需的时间，因为只需视觉检查部分数据集。更重要的是，这个过程可以进一步帮助减少与视觉质量控制相关的变异性，从而有利于不同研究之间数据质量的可比性（Klapwijk et al., 2019a, 2019b）。Qoala-T分数甚至可以用作头部运动的协变量，即在统计分析中的运动伪影。总之，这些工具为研究人员提供了对其数据集质量的良好概览，并协助决定是否包含或排除数据集。

确保了良好的数据质量后，当统计检验神经发育障碍中的大脑结构差异时，更多的挑战仍然等待着。我们将在下一节中讨论基于ROI与顶点逐一分析、协变量、多重比较校正和结果泛化等方面的挑战。

统计分析

统计分析影响结果的解释，并可能偏向于有关疾病诊断和治疗的决策。关于神经影像学中的统计推断和陷阱的详细回顾，请参阅Hupé（2015）。

FreeSurfer提供了两种统计分析群体比较和与其他感兴趣变量相关性的方法，即基于ROI的方法和表面顶点逐一分析方法。基于ROI的包括根据预定义图谱（Destrieux或Desikan-Kiliany；见图像处理部分）分析皮下和皮层体积、皮层厚度、表面积和局部回指数值。ROI应基于文献回顾和具体假设预先得出，因为过多的ROI可能会在多重比较校正时导致问题。相比之下，顶点逐一群体分析在每个特定表面顶点拟合一个群体间的广义线性模型，以比较皮层厚度、表面积、体积或局部回指数的值。然后将统计图覆盖在模板大脑上作为表面图，用不同颜色表示对比估计。这种方法可能对于没有关于受影响大脑区域先验假设的探索性研究很有用。注意，FreeSurfer用户可以进行基于ROI的分析，包括分割的皮下和划分的皮层指标，而顶点逐一分析只适用于皮层指标。选择这两种方法中的哪一种取决于感兴趣的效应。如果具有显著群体差异的区域沿着基于ROI的图谱中定义的回状边界，使用这些预定义的划分可能会增加统计功效。缺点是，在一个划分的ROI内平均值可能导致无法检测到较小或更特定区域的效应（见图2）。最后，这两种方法可以在一项研究中互为补充。

此外，研究人员和临床医生在对临床神经发育sMRI数据进行统计分析时需要考虑几个协变量，因为它们可能会混淆群体间比较。这些密切相关的变量包括年龄、性别和不同的全脑尺寸测量。研究人员和临床医生应彻底研究用于校正的方法和指标，并在解释结果时考虑它们。特别是在儿童和青春期这样的神经发育动态期间，参与者的年龄很重要，因为区域性大脑指标随时间变化（见部分典型的结构性大脑发育）。因此，研究人员和临床医生应考察每个组内感兴趣的区域性指标随年龄的比例关系，并根据指标的基础发育轨迹解释群体差异。关于结构性大脑发育中的性别差异，与女孩相比，男孩有更大的头部和大脑尺寸（De Bellis et al., 2001; Paus et al., 2017; Sowell et al., 2002）。此外，青春期皮质变薄的微妙性别差异也已被报道（女性在右侧颞区和左侧颞顶交界处的皮质变薄速率更高；Mutlu et al., 2013）。由于神经发育过程中的性别差异可能与神经发育障碍的发病年龄和临床表现有关，因此在统计分析中应始终考虑性别，例如，将其作为协变量包含在内。

此外，是否考虑全脑尺寸是横断面比较研究中一个特别重要的问题，因为群体间的差异可能由个体间全脑尺寸差异驱动，而不是固有于感兴趣的区域性指标。在纵向发育研究中，这个问题更为复杂，因为儿童和青少年的全脑尺寸测量可能随年龄而变化。是否校正全脑尺寸（O’Brien et al., 2011）以及使用哪种指标和方法进行校正（Mills et al., 2016）可能会影响结果及其解释。如前所述（部分典型和非典型结构性大脑发育），过去sMRI研究中全脑尺寸的估计显著不同，包括例如大脑体积（De Bellis et al., 2001）、总脑体积（Sowell et al., 2007）、整个大脑体积和eTIV（Mills et al., 2016）。

此外，研究人员和临床医生可能使用三种主要调整方法来校正这些全局尺寸的区域性指标：比例法、协方差分析法和残差方法（尽管最后一种方法已经很少使用了，因为它可能难以解释；O’Brien et al., 2011）。在比例法中，感兴趣的区域性大脑指标被全脑尺寸除，留下一个比例值用于进一步分析。在群体比较中，这意味着假设每个大脑区域与总eTIV或整个大脑体积之间在群体之间存在相同的线性关系。如果这些条件不满足，计算比例可能会引入偏差。协方差分析方法通过将全脑尺寸作为协变量纳入分析，通过回归统计来考虑与全脑尺寸的共享方差。由于实施更简单，尤其在顶点逐一分析中，协方差分析方法更受青睐，因为比例方法将意味着在统计分析之前调整每个皮层顶点（Vijayakumar et al., 2018）。值得注意的是，这些变量可能会以不同的方式影响校正的区域性大脑指标的结果，因为从儿童到成人的皮层灰质体积发育轨迹根据调整方法和大脑尺寸指标（eTIV或整个大脑体积；Mills et al., 2016）的不同而有所不同。此外，使用比例调整方法时，eTIV和整个大脑体积都被发现能解释青春期灰质发育中的性别差异，而仅当应用协方差分析调整方法时，整个大脑体积才能这样做（Mills et al., 2016）。因此，在统计分析中包含这两个协变量时，应仔细研究大脑尺寸与性别之间的关系。关于区域和全脑尺寸之间线性比例假设的进一步讨论，请参阅Vijayakumar et al. (2018)。

重要的是，调整全脑尺寸并不总是必需的。只有在分析与全脑尺寸成比例的指标时，才应将eTIV作为协变量包括在内，包括皮下体积、皮层体积和表面积（参见FreeSurfer Wiki；https://surfer.nmr.mgh.harvard.edu/fswiki/eTIV）。由于认为皮层厚度与全脑尺寸无关，因此不应考虑eTIV，而且大多数关于皮层厚度的研究选择不控制全脑尺寸（Vijayakumar et al., 2018）。相应地，Barnes et al. (2010) 提议在分析灰质体积时调整年龄、性别和全脑尺寸，以及在分析皮层厚度时调整年龄和性别。总的来说，强烈建议研究人员和临床医生同时呈现原始和校正的大脑指标结果，详细报告用于校正的指标和方法，并讨论校正如何影响结果的解释。

一个特别的是在顶点逐一分析中的大挑战是控制结果的假阳性率（FPR）。FPR代表类型一错误的率（假设存在群体差异，而实际上并不存在），这个率应该是任意的但传统上少于5%（Benjamin et al., 2018）。在临床发展结构神经影像学中，这个问题因为脑影像中成千上万的单一测量（顶点）而加剧，在这里同时测试了大量的假设。关于这个多重比较问题的方法总结，请参阅Bender和Lange（2001）关于何时以及如何调整多重测试，以及Greve和Fischl（2018）关于基于表面分析的具体内容。

考虑到FreeSurfer中顶点逐一群体比较，使用参数化的基于高斯的蒙特卡罗（MC）模拟默认计算FPR。MC模拟在许多迭代中（通常是10,000次）通过平滑和阈值化白噪声（形成簇的阈值；CFT）提取连续顶点（簇）的集合。随后，该算法计算实际数据中簇的p值（Greve & Fischl, 2018）。这种参数化方法依赖于数据的高斯空间平滑性和高斯分布的底层噪声，这在神经影像数据中并不总是满足的（Eklund et al., 2016）。非高斯排列提供了一种替代方法来校正多重比较，并且之前被发现能够适当地控制FPR（Winkler et al., 2014）。MC模拟和排列的计算依赖于平滑核（2, 4, 6, 8, 10, 或 12 mm全宽半高；FWHM）和CFT（0.05, 0.01, 0.005, 或 0.001）。在一项测试这两种方法在顶点逐一分析皮层厚度、表面积和体积的表现的研究中，Greve和Fischl（2018）在应用MC模拟时建议：

厚度或体积：CFT ≤ 0.001 和任何平滑度水平 OR CFT ≤ 0.005 与平滑度水平 FWHM > 10 mm；
表面积：CFT ≤ 0.001 和平滑度水平 FWHM > 10 mm。

尽管如此，使用如此严格的CFT，往往没有顶点存活下来，这大大降低了功效。排列允许使用较不严格的CFT，因为它能够在所有CFT和平滑度水平的组合中适当控制FPR。然而，排列也有一些缺点，包括更复杂的设置、高计算时间，并且要求数据在参与者之间是可交换的，Winkler等人（2014）详细讨论了这个话题。MC模拟和排列都可以通过使用mri_glmfit-sim脚本在FreeSurfer的统计分析中使用。

对于基于ROI的分析，错误发现率（FDR）常用来处理多重检验问题（Benjamini & Hochberg, 1995）。这种方法可以轻松应用，如使用假发现率在线计算器（https://tools.carbocation.com/FDR）。同样，研究人员和临床医生也可以应用Bonferroni调整程序（Bland & Altman, 1995）。原始的Bonferroni方法相当简单，但同时往往功效低，应用于少量的测试（Bender & Lange, 2001）。Bonferroni方法和一些改进，如更强大的Holm方法（Aickin & Gensler, 1996），以及针对相关结果变量的校正都已实施且易于应用（例如，通过简单交互式统计分析；https://www.quantitativeskills.com/sisa/calculations/bonhlp.htm）。这些程序的一个弱点是，一个发现的解释取决于进入FDR或Bonferroni校正的其他ROI的数量。因此，过多的ROI会降低任何显著结果的概率，真正重要的差异可能被认为是不显著的。无论如何，研究人员和临床医生应包括并透明报告采取的校正多重比较的步骤，并讨论每个结果可能的解释，以便于不同研究之间的可比性。

即使在统计上显著且已校正多重比较的神经发育障碍的改变大脑结构的结果，也常常需要谨慎解释，因为样本量小和当同一参与者被用于多个报告时的样本冗余（Anderson & Kiehl, 2012）。如前所述，对于小型实验室来说，往往难以招募足够的符合纳入标准的儿童或青少年神经发育障碍患者。较小的样本通常更易于管理，研究人员能够彻底检查每个参与者的排除标准。就从干净样本中获得结果的目标而言，这是有益的。然而，小样本已显示更可能产生假显著结果，并且产生相对较大效应大小的类型I错误（Ingre, 2013）。更大的样本量允许更好地估计效应大小（Ingre, 2013），这在sMRI研究中通常相当小。

提高小型临床发展样本价值的一种方式是跨多个中心合作，以增加总样本量。研究人员和临床医生可以通过参与多中心研究的合作来实现这一目标。另一个选择是参与全球联盟，如ENIGMA（通过元分析增强神经影像遗传学）联盟，该联盟有超过50个不同的工作组参与事后数据汇总和分析（Thompson et al., 2020）。这些努力收录了迄今为止几种神经发育障碍中最大的sMRI研究（例如，Hoogman et al., 2017关于ADHD）。据此，ENIGMA-ADHD工作组的大规模研究发现来自全球36个队列的1018名ADHD儿童与1048名对照组相比，在梭形回、海马旁回和中央前回以及颞极中的皮层厚度显著减少（Hoogman et al., 2019）。同样，发现表面积减少，其中总表面积最大效应量d为-0.21（Hoogman et al., 2019）。重要的是，这种协作方法严重依赖于透明的标准化程序（研究协议、用于获取sMRI数据的硬件和序列、质量控制程序、处理工具、统计分析方法等）。这些措施对于实现复制研究和包含在元分析中以组合同一研究问题上的几项较小研究至关重要。为了进一步促进合作，已经开发了大脑影像数据结构（BIDS）来组织和描述神经影像和行为数据集（即文件命名和文件夹组织），以便于在共享数据中自动化流程和质量控制协议（Gorgolewski et al., 2016）。

请注意，所有上述的统计分析方法属于更易实施的单变量方法，这些方法假设可以在孤立的ROI或顶点中观察到群体间的差异，但忽略了它们之间的关系（Davis & Poldrack, 2013）。额外的多变量方法也很有价值，因为它们允许进行更复杂的分析，涉及皮层网络，如识别共同变化的皮层区域（Alexander-Bloch et al., 2013），使用例如非负矩阵分解（Ball, Beare, and Seal 2019）或机器学习（Peng et al., 2013）。

总之，强烈建议遵循临床发展sMRI研究中报告方法细节的指南。Vijayakumar等人（2018）提出了这样指南的概述，涵盖样本、采集、处理、分析和结论。由于作者特别为调查典型大脑发育的纵向sMRI研究制定了指南，我们对其进行了修改，以适用于临床发展sMRI（见文本框2）。在实施实践透明度以准确理解神经发育障碍时，它们代表了全面的指导。

总结

总之，我们讨论了临床发展sMRI研究中几个重要的方法学挑战，并提供了逐步的实操指南，说明如何按照sMRI研究的顺序应对这些挑战：研究设计、图像采集、图像处理、不同阶段的质量控制，以及统计分析和解释。这些步骤中的方法变化可能导致了从儿童到青少年典型神经成熟过程的不同结果和解释，以及神经发育障碍中这些过程的改变。未来的研究应寻求三方面内容：1) 采取更大的实践透明度和对研究设计、图像采集、图像处理和统计分析决策的理由，2) 对每个脑形态测量指标进行分析和报告发现，以获得大脑结构和成熟及可能的改变的完整画面，3) 实证检验不同方法对结果的影响，以促进尽可能鲁棒的结果。采用这些标准将有助于确保发现不仅适用于特定样本或方法，而且足够鲁棒，最终促进对神经发育障碍的稳固和准确理解。