结构MRI质量的差异会显著影响脑部解剖学测量指标

最新推荐文章于 2025-03-07 19:05:24 发布

思影科技

最新推荐文章于 2025-03-07 19:05:24 发布

阅读量944

点赞数

文章标签：人工智能 python 计算机视觉

受试者的运动会在神经影像数据中引入噪声，并导致对大脑结构的估计出现偏差。扫描中的运动可能会以多种方式影响数据质量，并在发育和临床人群中变化较大。然而，对结构图像质量的量化往往仅限于从功能扫描中获得的间接测量；这可能会遗漏与这些潜在偏差相关的真正差异。在这项研究中，我们利用CAT12工具箱，更直接地从T1加权图像中测量图像质量，以了解这些图像质量的测量：（1）与人工视觉完成的严格质量控制检查是否相关；（2）是否与感兴趣的社会人口变量有关；（3）是否影响常用的Freesurfer工具对大脑皮质表面积、皮质厚度和亚皮质体积的区域估计。我们利用包括儿童和青少年的社区样本在内的公开数据，覆盖了大范围的年龄段（N = 388；年龄5-21岁）。有趣的是，即使在视觉检查我们的数据后，我们发现图像质量显著影响了从大脑多个区域得出的皮质表面积、皮质厚度和亚皮质体积（约占所有研究区域的23.4%）。我们认为这些结果对于使用Freesurfer或其他形态学工具进行结构MRI研究的研究组非常重要。因此，未来的研究应考虑使用图像质量的测量来最小化这种潜在混淆因素在群体比较或关注个体差异的研究中的影响。本文发表在Brain Informatics 杂志。(可添加微信号siyingyxf或18983979082获取原文，另思影提供免费文献下载服务，如需要也可添加此微信号入群，原文也会在群里发布)。

1 引言

神经影像学方法越来越常见，但随着这些进步，我们对这些研究技术可能存在的混淆因素和限制有了更深的理解。神经影像研究最常见的限制之一是运动相关的伪影。这种噪声是由参与者在神经影像学会话期间的运动引起的，可能影响对大脑结构和功能的评估。对于那些对神经发育和心理健康感兴趣的人来说，解决这种噪声和偏差可能尤为重要。尽管个体的头部运动差异很大，但儿童通常比成年人移动得更多，病人组的平均移动程度也比对照组更大。

多项静息态fMRI研究已经强调了这个问题的重要性，因为已经证明，即使是非常小的运动差异也会导致健康样本中功能连接性估计的显著差异。事实上，已经证明，即使头部运动只有毫米级别的分数，也会显著地偏差BOLD激活时间序列之间的相关性，这是以距离依赖的方式进行的，导致对功能网络内连接性的虚假估计。此外，最近的工作已经显示，头部运动在单个受试者从一次扫描会话到下一次扫描会话之间是一致的，这提高了运动可能混淆同一人群内个体差异探索的可能性。特别具有挑战性的是，即使在进行了大量的运动矫正程序后，这些差异仍然存在。因此，这激励了一个专注于有效减少静息状态和其他形式的功能性MRI中运动相关噪声的方法学的子领域。

虽然在量化和解决头部运动对功能分析影响方面已经取得了很大的进展，但对结构MRI，如来自T1加权图像的估计，却没有给予足够的关注。然而，很明显，已经证明头部运动会影响从皮层灰质区域得出的体积和厚度的测量值。即使在进行了各种形式的手动和自动校正后，这种效应仍然存在，这表明扫描中的运动引起了不反映软件处理失败的假象效应，而是反映了系统性偏差（例如，运动引起的模糊），这可能类似于灰质萎缩。特别令人担忧的是，许多神经影像学组会视觉检查扫描，并包括"公平"或"边缘"质量的扫描。当研究人员关注不同的群体（例如，儿童对比青少年；临床组对比非临床组），这可能会创造出一个“苹果对比橙子”的比较；所有的扫描可能都“通过”了视觉检查，但是一组有优秀的图像质量和清晰度，而另一组有可见的运动，只是超过了这些通过的阈值。这些问题在神经影像学中仍被广泛忽视，但对潜在的结果有重大影响。例如，Ducharme和同事们在一个没有任何质量控制（QC）、标准QC，以及更严格的QC的样本中，探讨了儿童和青少年时期神经发育可能的非线性轨迹。在没有使用QC的情况下，大脑的16.4%显示出二次或三次发展轨迹；然而，这个数字在标准和更严格的质量控制下分别降到了9.7%和1.4%。这些模式强烈地强调了在与儿童、临床或任何其他可能的“高运动”人群工作时，这些问题的重要性。

虽然运动对结构MRI的影响是明确的，但量化和处理T1加权图像中运动相关噪声的方法有限。对于特别嘈杂的结构数据，研究者通常会“标记”出问题的扫描，并从进一步的分析中移除这些受试者。这个过程涉及到评分者视觉评估每一个T1加权的结构图像。这种策略的一个限制是，许多我们感兴趣的被试群体本质上更容易发生头部运动（例如，9岁以下的儿童；有临床诊断的个体）。而且，人工评分系统对于大规模的数据集来说相对不实用。更进一步的挑战是，人工评分者的视觉检查相对主观。有许多研究已经展示了这一点，人工评分系统之间存在中度令人担忧的内部和外部的可变性。此外，即使对于通过了“视觉检查”的T1加权扫描，数据质量的重要变化可能仍会影响形态测量的估计。如前所述，换句话说，有些扫描可能刚好在评分者的阈值之上，而其他的体积可能是最高的质量；然而，这两种类型的扫描都会被简单地认为是“可用的”。

补充图1 展示了MRI和典型人类视觉评分员得分。

左侧显示的是一个动态较大的扫描，得分为1。在中间，一个质量合理的扫描得分为5。矢状面图像显示了大量与参与者运动有关的振铃伪影（"振铃"这个词在这里是指的MRI扫描中由于运动或设备问题导致的图像伪影，具体表现为图像中会出现类似振铃或波纹的效果。这是一个常见的在进行MRI扫描时需要注意的问题，因为它会影响到图像的质量和后续的分析），而冠状面图像的伪影在皮质的更高部位更为突出。右侧显示了一个质量较高的扫描，得分为9.5。这个扫描将会被保留在相关分析中。

补充图2 这个图示展示了具有平均得分（图像的左侧和中间）2，4，6和8的参与者MRI扫描的示例（从上到下）。在每个得分阈值下，原始样本中会包含的百分比也在图示中标明。图像的右侧显示了与图像质量（由CAT12评估）相关的Freesurfer皮层输出的百分比。值得注意的是，这是对于未经校正的p<0.05的数据（鉴于表面积和皮质厚度都有68次比较，这一点尤其值得关注）。同时也给出了Freesurfer皮质输出与图像质量相关性的平均t-分值和标准差。

整体来看，这些问题的部分原因在于，对于T1加权MRI扫描，我们通常能得到的关于噪声的信息是有限的。T1加权MRI扫描只涉及获取一个高分辨率的解剖结构。到目前为止，这已经阻止了我们对噪声和受试者运动进行丰富的评估，这与fMRI形成了鲜明对比。功能性MRI涉及获取数十个，往往是数百个低分辨率的大脑体积；这允许我们计算体积位置的逐帧变化，并对受试者在fMRI扫描获取过程中的运动有一个清晰的度量。这种数据的易得性使得一些人主张使用从fMRI中派生的运动参数，如平均帧间位移(FD)，来识别包含运动相关偏差的结构性大脑扫描。最近的工作表明，通过在视觉检查的T1加权图像样本中额外移除FD离群值，大脑皮层的大部分区域的年龄和灰质厚度的效应大小都被削弱了。因此，过去一些从T1加权图像派生的参与者变量和大脑形态测量之间的关联结果可能是不准确的，特别是在“容易运动”的人群中可能被过度放大。需要进行更多的工作，以明确地了解T1加权图像中与运动相关的偏差和噪声在不同研究人群中的变化和重叠情况。

尽管过去使用T1加权图像的结构MRI研究受到上述限制的困扰，但新型信息学工具的进步可能可以克服这些问题。最近推出的质量评估工具提供了易于实施的、自动化的、定量的神经影像数据测量方法。例如，MRI质量控制工具（MRIQC）最近被引入，可以针对T1加权（和其他MRI）图像的不同质量属性进行评估。同样，用于SPM的计算解剖学工具箱（CAT12）评估多个图像质量指标，并为给定的结构MRI扫描提供一个综合的“评级”。思考过去的研究，我们尚不清楚结构MRI的质量是否与常用的结构测量（例如，皮质表面积；皮质厚度；区域性皮质下体积）有关。Rosen和同事们的深思熟虑的工作开始探讨这个想法。这些研究者发现，Freesurfer的指标，特别是Euler数，与人工评分者对图像质量的评估一致相关。此外，Euler数，一种关于重建大脑表面拓扑复杂性的汇总统计量，与皮质厚度的变化显著相关。

尽管重要，但Rosen和同事们的一个主要结果可以被描述为“共线性”的本质——Freesurfer重建的一个度量（Euler数）与Freesurfer输出的度量（皮质厚度）有关。理论上，Freesurfer重建的不准确性或可变性可能归因于MR质量，或者算法问题。使用一种与Freesurfer输出相关的独立质量度量，将为T1加权MRI质量对形态测量的潜在影响提供更强的证据。此外，Rosen和同事们并没有研究他们的MR质量度量，Euler数，是否与皮质下（例如，杏仁体）体积或皮质表面积有关。考虑到认知和情感神经科学家对这种形态测量的重大兴趣，了解T1加权图像质量是否影响这些结构的变化将是重要的。解释这种变化可能对于减少潜在的伪关联和提高效应的复制性很重要。

为了达到这些目标，我们调查了三个关键问题：

（1）由CAT12工具箱输出的图像质量的综合度量，是否与对结构MRI图像的视觉评级者判断（保留/排除）具有独特的关系；

（2）图像质量的变化是否与社会人口统计学和心理社会变量（例如，年龄；性别；临床诊断）相关；

（3）CAT12图像质量是否与Freesurfer中从T1加权图像派生的常用形态测量（皮质表面积，皮质厚度和皮质下体积）的差异有关。

2 材料和方法

2.1 参与者

从正在进行的研究计划中下载了388名年龄在5-21岁之间的参与者的T1加权结构图像，该研究计划是健康大脑网络（HBN），由儿童心智研究所在2015年启动的两个数据波。有关样本特征，请参见表1。有认知或行为挑战的参与者（例如，非语言，智商<66），或者有预期会混淆脑相关发现的医学问题，被排除在HBN项目之外。HBN协议涵盖四个会议，每个会议大约持续3小时。关于完整的HBN样本和测量的更多信息，请参阅HBN数据描述符[23]。

表1 人口统计表格

表格显示了我们样本的人口统计特征，包括参与者的年龄、性别、精神疾病诊断（基于结构化访谈的二元指标）、一般认知能力以及体质指数。此表还显示了我们感兴趣的MRI质量度量，即CAT12分数，以及Freesurfer的欧拉数的平均值（和标准差）。

2.2 MRI数据获取

MRI采集包括结构MRI（T1-和T2-加权）、磁化率传递成像以及定量T1-和T2-加权映射。在这里，我们只关注T1-加权结构MRI扫描。位于罗格斯大学大脑成像中心（RU）的西门子3特斯拉Tim Trio MRI扫描仪配备了一款西门子32通道头线圈。T1-加权扫描采用了磁化预备-快速梯度回波（MPRAGE）序列，参数如下：224个切片，0.8 × 0.8 × 0.8 mm分辨率，TR = 2500 ms，TE = 3.15 ms，以及翻转角度 = 8°。所有在此研究中使用的神经影像数据都可以通过国际神经影像数据共享倡议在适当的数据使用协议下进行下载。更多信息，请参见HBN数据描述符。

2.3 视觉质量检查

所有T1-加权都由一系列受过训练的人类评估员进行视觉检查，他们被训练来识别扫描工件和运动的频繁迹象。这种训练提供了包括“振铃”、“鬼影”、“RF-噪声”、“头部覆盖”和“易感性”在内的工件的实例和描述。我们的附加文件1详细描述了这个协议的实例。每个评估员被指导给出1到10之间的分数，其中高分数被分配给高质量的图像。分数6被选为进一步研究中扫描包含的分界点。这个选择是通过检查6名研究助理对结构MRI扫描的评分的平均值和中位数来决定的；所有评分的平均值是6.14，中位数是6。我们的附加文件1详细描述了评分分布和评估员之间的相关性。为了最小化任何评估员的特异性，所有的评分都进行了z-分数（在评估员内）标准化，然后在评估员之间取平均，并将其与截断（6.0）点的平均z-分数进行比较。对于平均z-分数评分大于平均z-分数截断点的扫描，将其保留下来（通过视觉检查，N = 209），其余的则从进一步分析中移除。在我们的附加文件1中，我们也对没有通过视觉质量检查的受试者进行了额外的分析，研究了图像质量和形态测量输出之间的类似关系。

2.4 图像质量指标

我们使用CAT12工具箱（Computational Anatomy Toolbox 12），这个工具箱是在统计参数映射中实现的，用于生成每个T1-加权图像的质量的定量指标[。所使用的方法考虑了图像质量的四个总结度量：（1）噪声对比度比；（2）联合变异系数；（3）非均匀度对比度比，以及（4）均方根体素分辨率。为了产生一个作为总体质量指标的单一聚合度量，该工具箱将每一项度量标准化，并使用一个基于卡帕统计的框架来结合它们，以通过解最小二乘来优化广义线性模型。这个度量范围从0到1，数值越高表示图像质量越好。更多信息可在以下网址找到：http://www.neuro.uni-jena.de/cat/index.html#QA。由于噪声过多，一个T1-加权扫描的质量评估无法通过CAT12工具箱完成。值得注意的是，对于使用CAT12工具箱作为质量控制工具的相关性，生成图像质量度量大约每个主题/扫描需要18分钟（在入门级计算机上）。

2.5 社会人口统计学、认知和精神病学测量

在完成适当的数据使用协议后，通过协作式信息学和神经影像套件（COINS）数据交换对社会人口统计学（自我报告）、认知和精神病学数据进行了评估。我们选择了一些我们认为可能与T1-加权MRI质量协变的测量指标。由过去的研究激发，这些指标包括：年龄、性别、体质指数（BMI）、一般认知能力（IQ）和临床诊断。儿童韦氏智力测验（WISC-V）用作一般认知能力（IQ）的测量，样本中有336名参与者完成了这项测试；WISC-V是一个单独进行的临床工具，用于评估6-16岁的青少年参与者的智力，并生成一个总体认知能力分数（全量智商；FSIQ）。与临床诊断相关，精神病理症的存在由使用半结构化的DSM-5基础精神病诊断面谈（即，儿童情感障碍和精神分裂症日程表；KSADS-COMP）的认证临床医生进行评估。我们的样本中有367名参与者提供了这项数据。所有的社会人口统计学、认知和精神病学测量的均值、标准偏差和范围都在表1中说明。我们的附加文件1中提到了这些测量的额外信息。

2.6 图像预处理/处理（Freesurfer）

我们在Freesurfer 7.1版本中进行了标准的处理方法（例如，皮层重建；体积分割）。Freesurfer是一个广泛记录并且可免费获取的形态处理工具套件(http://surfer.nmr.mgh.harvard.edu/)。简而言之，这种处理包括T1-加权图像的运动校正和强度标准化，使用混合分水岭/表面变形过程去除非大脑组织，自动Talairach转换，对皮质白质和深灰质体积结构（包括海马、杏仁体、尾状核、壳状核、脑室）的分割，灰质白质边界的镶嵌，以及皮层表面积和皮层厚度的推导。值得注意的是，我们使用了“recon-all”流程，并采用了默认的参数集（没有标记选项），并且没有进行手动编辑。处理成功后，我们从皮质下结构中提取了体积，以及用于34个双侧Desikan-Killiany（DK）图谱区域的平均皮层表面积和皮层厚度。我们使用Brainlife.io实施了Freesurfer计算，这是一个免费的，由公众资助的，用于可重现神经影像流程和数据共享的云计算平台。四名参与者的扫描由于技术问题在Freesurfer中没有完成处理；这使得通过视觉检查并完成Freesurfer处理的总样本量为N = 205。我们的方法的图形描述如图1所示。

图1 该研究流程的图形描述。结构MRI图像由多个训练有素的研究助手进行评分，并在CAT12工具箱中处理（a）。人类评价者评估每个图像，然后对这些评分进行平均；评分大于6的MRI图像，然后在Freesurfer中进行处理，并检查CAT12分数与Freesurfer输出之间的关系（b）。

2.7 统计建模

首先，我们构建了逻辑回归模型，该模型使用来自CAT12工具箱的T1加权图像质量的聚合度量，以及由经过训练的人类评估员完成的通过或失败视觉质量保证检查的结果。我们计算接收者操作特性曲线以理解真阳性（敏感性）和假阳性率。对于这些接收者操作特性度量，我们计算了曲线下面积（AUC）以展示所有分类阈值的分类性能（并区分通过或失败视觉质量保证检查的类别）。我们还构建了：（1）贝叶斯逻辑模型，以及（2）混淆矩阵。贝叶斯逻辑模型探讨了常见的频率主义逻辑模型的过拟合和偏差。混淆矩阵的构建涉及了在我们全样本的80%上进行逻辑模型拟合（作为“训练”集），然后将这些参数应用到我们样本的剩余20%（“测试”集）。接下来，我们计算了双变量相关性，以检查我们的图像质量和感兴趣的社会人口变量之间的关系，包括年龄、性别、IQ、BMI和临床诊断。最后，我们计算了T1加权图像质量与Freesurfer输出之间的158个双变量相关性（68个来自DK图谱的平均皮质表面积；来自DK图谱的68个平均皮质厚度估计；22个皮质下区域）。值得注意的是，Freesurfer皮质下脑脊液输出（例如，侧脑室；左侧脑脊液囊肿）被排除在分析之外。

考虑到进行的统计测试的数量以及为了进一步的可重复性，我们根据Benjamini和Hochberg的虚假发现率修正调整了最后一步的所有p值。这种常用方法已被证明具有检测真阳性的适当功效，同时仍然控制类型I错误的比例在指定水平（α=0.05）。这是在每个形态测量输出类别“内部”完成的（即，为表面积和MRI质量的68个相关性进行校正）。我们使用'ggseg' R库绘制了所有结果。所有报告的相关性都来自具有1个自变量的线性回归模型，所以这可以被看作是等价于双变量（皮尔逊）相关系数。

2.8 补充建模

为了检验主文档中报告的结果的稳健性，我们还完成了一些与我们感兴趣的变量相关的后续分析。这些包括：(1) 使用CAT12和另一个图像质量标记——Freesurfer的Euler数，构建逻辑回归模型和ROC曲线；(2) 在控制了重要的社会人口学因素——年龄之后，检查Freesurfer输出和结构MRI质量之间的关系；(3) 在控制了Freesurfer的Euler数之后，测试Freesurfer输出和CAT12分数之间的关系；(4) 在视觉质量检查后排除的参与者中探讨Freesurfer输出和CAT12分数之间的关系，以及 (5) 在控制CAT12扫描评分的同时，绘制Freesurfer输出和Freesurfer的Euler数之间的关系。请参阅我们的附加文件1以获取这些附加分析。

表2 皮层表面积与结构MRI质量（由CAT12工具箱测量）之间的关系

表格展示了MRI质量（CAT12评分）与Freesurfer的DK图谱中不同大脑部位的皮层表面积的关系。表格的左侧显示了左半球的区域，右侧显示了右半球的区域。在每一侧，第一列是区域，第二列是CAT12评分和皮层表面积的t统计量。第三列是未经校正的p值，而第四列是这个测试统计量经过多重比较校正后的值（针对所有68个皮层部位）。斜体表示区域的p值小于0.05（未校正），粗体表示区域的p值小于0.05（FDR校正后）。

3 结果

3.1 T1加权MRI质量与结构图像视觉拒绝/接受之间的关系

使用逻辑回归来检查我们的T1加权MRI质量测量与通过或不通过由训练过的人类评估者完成的质量保证检查的结果之间的关系。逻辑回归模型表明，由CAT12工具箱得出的T1加权MRI质量与由训练过的人类评估者完成的通过或不通过质量保证检查的结果显著相关（z = 7.877，p < 0.005；Nagelkerke's R2 = 0.8951）。这表明更高的CAT12 MRI质量分数与通过视觉检查的可能性有关。接收者操作特征分析表明平均AUC为98.9%（95%置信区间为98.2-99.6%，如图2所示）。贝叶斯GLM建模建议了类似的关系，更高的MRI质量显著相关于通过视觉检查（z = 8.141，p < 0.005）。如图3所示，混淆矩阵显示出强烈的模型预测能力，样本外（来自我们样本的80%，保留20%）-准确性 = 0.938 和 Kappa = 0.874。

图2 ROC曲线显示了图像质量（来源于CAT12工具箱）用于区分通过（相对于未通过）人类评估者视觉质量检查的有效性。灵敏度和特异性都很高，这表明图像质量能够稳健地解析这种二元分类。这些ROC曲线的95%置信区间以红色显示。

图3 为了进一步探讨CAT12分数准确分类MRI图像包含/排除的能力（源自我们的人类评估者），我们构建了混淆矩阵。值得注意的是，我们使用了80%的数据作为训练集，20%的数据作为测试集。这个图形显示了包括灵敏度、特异性、准确性和卡帕值在内的不同的精确分类指标。

3.2 T1加权图像质量与关注的社会人口学变量之间的双变量相关性

接下来，我们研究了T1加权图像质量和关注的社会人口学变量（例如，年龄，性别，BMI和临床诊断）之间的相关性。如预期并与其他报告一致，图像质量与年龄相关（r = 0.321，p < 0.005；如图4所示）。年龄较大的受试者通常具有更好的扫描质量。有趣的是，没有其他的社会人口学因素与图像质量显著相关（性别p = 0.196；BMI p = 0.227；临床诊断[二进制指示器] p = 0.189）。BMI的发现与在成年人中报告的过去的结果相矛盾。图像质量与IQ之间存在趋势相关性（r = 0.101，p = 0.06），高IQ与更好的图像质量相关。值得注意的是，这是对所有参与者的考察（不仅仅是那些通过人工视觉检查的人）。如果只在通过视觉检查的人中调查相关性，那么年龄和图像质量的关联仍然显著（p = 0.036）。所有其他的关联都不显著（所有p值> 0.3）。

图4 散点图显示了参与者年龄（以年为单位；水平轴）与图像质量（噪声-对比度比、联合变化系数、非均匀性-对比度比和均方根体素分辨率的综合度量，范围从0-1；垂直轴）之间的关系。点的颜色表示参与者是否通过了视觉质量检查（通过 = 青色；未通过 = 鲑鱼色）。

3.3 Freesurfer输出与结构MRI质量之间的关联

接下来，我们检查了T1加权MRI质量与Freesurfer的158个形态测量输出之间的相关性（DK图谱的68个平均皮层表面积估计；DK图谱的68个平均皮层厚度估计；22个皮质下区域）。关于皮层表面积，T1加权图像质量与来自不同脑区的平均表面积之间的关联有所不同（t统计量范围=-0.926-4.918）。总的来说，这种关联是适中的（平均t统计量=1.473±1.33）；然而，在12个区域中，图像质量和平均表面积之间的关系在校正了多重比较后仍然显著（pfdr-校正<0.05，如表2和图5所示）。对于皮层厚度，再次出现了区块平均厚度与图像质量之间的关系变化（t统计量范围=-2.376-6.571），总的关联是适度的（平均t统计量=1.510±2.04）。然而，23个区域的图像质量和皮层厚度的关系在校正了多重比较后仍然显著（pfdr-校正<0.05，如表3和图6所示）。最后，对于皮质下体积，出现了类似的模式（t统计量范围=-0.5896-3.337；平均t统计量=1.312±1.016，如表3和图6所示）。值得注意的是，两个区域的体积，左侧杏仁体和胼胝体的后部，与图像质量相关（pfdr-校正<0.05）在校正了多重比较后（如表4和图7所示）。总的来说，我们检查了Freesurfer的158个形态测量输出，其中37个在校正了多重比较后与图像质量显著相关。值得注意的是，如果没有进行多重比较的校正，那么56个区域（或约35.4%的输出）在p<0.05的水平上与图像质量相关。

图5 用R库ggseg绘制的图示，显示图像质量（由CAT12工具箱评估）与推导的（平均）皮层表面积之间的关系。这是针对在Freesurfer中常用的DK图谱进行的。右半球的外侧和内侧视图显示在上方，左半球的外侧和内侧视图显示在下方。左侧面板显示了每个区域之间关系的整体t统计量，而右侧面板显示了在多重比较中，表面积与图像质量之间的关系在哪些区域中得以保留。

表3 皮层厚度与结构MRI质量（由CAT12工具箱测量）之间的关系。

图6展示了图像质量（通过CAT12工具箱评估）与衍生的（平均）皮层厚度之间的关联（由R库ggseg进行图形描述）。这是使用在Freesurfer中常用的DK图谱进行显示的。右侧（顶部）和左侧（底部）半球的侧面和中间视图都进行了展示。左侧面板显示了每个区域中关系的总体t统计量，而右侧面板显示了皮层厚度和图像质量之间的关系在经过多次比较后仍存在的区域。

图7 展示了图像质量（通过CAT12工具箱评估）与皮层下体积之间的关联（由R库ggseg进行图形描述）。这是使用Freesurfer ASEG图谱进行显示的。冠状（左）和矢状（右）视图都进行了展示。左侧面板显示了每个皮层下体积中关系的t统计量，而右侧面板显示了体积和图像质量之间的关系在经过多次比较后仍存在的区域。

4 讨论

本研究的主要目标有三个：（1）观察图像质量的综合度量（由CAT12工具箱输出）是否与视觉评级者对T1加权MRI图像的判断（保留/排除）相关；（2）检查T1加权成像质量的直接测量是否与我们感兴趣的社会人口和行为变量相关；（3）常用的Freesurfer输出是否与T1加权图像质量存在关联。关于第一个目标（可能如预期那样），由CAT12工具箱输出的图像质量度量与视觉评级者对T1加权MRI图像的判断有强烈的关联。逻辑回归模型和接收者操作特性分析支持了这个观点。关于第二个目标，我们发现图像质量与年龄有显著的关系；然而，智商、BMI、性别或临床诊断之间没有关系。最后，我们证明了从T1加权图像中提取的常用结构MRI测量与图像质量有强烈的关系。即使在纠正多次比较后，许多皮层表面积、皮层厚度和皮层下体积的测量都与图像质量有关。对于大量的脑区（23.4%）来说，这提示了图像质量对结构形态测量的广泛但显著的影响。有趣的是，许多经过多次比较后仍然存活的区域（例如，内嗅区、中央前区、尾部中额叶区）在自动质量控制套件Qoala-T 中被发现具有影响力。综合考虑，我们的结果对于使用T1加权MRI的神经发育和其他应用工作的研究具有重要的影响，因为运动伪影对于年幼儿童和临床人群特别有问题；这些群体可能在收集高分辨率神经影像数据所需的时间内难以保持静止（表4）。

表4：皮层下体积与结构MRI质量（由CAT12工具箱测量）之间的关系

表格显示了MRI质量（CAT12得分）与Freesurfer的ASEG图谱中的皮层下体积之间的关系。第一列是区域，第二列是CAT12和皮层下体积的t统计量。第三列是未校正的p值，而第四列是对这个检验统计量进行了多重比较校正（对所有22个皮层下感兴趣区域）的结果。粗体表示区域的p值< .05（未校正），而斜体表示区域的p值< .05（FDR校正）。

将我们的结果与过去的研究报告进行比较，我们发现图像质量和年龄之间存在显著的双变量关联。然而，我们没有发现图像质量与诸如普遍智力（IQ）和BMI等因素之间的关联。这些发现与一些先前的出版物形成了对比。这可能是由于我们样本的年龄范围（5-21岁），而那些相关的过去研究主要在成年样本中完成。在以前的研究基础上，我们发现图像质量与大脑解剖的衍生测量相关，无论典型（二元）质量阈值切断如何。即使在高质量的结构扫描中（即“通过”视觉检查），扫描器中的运动似乎也会影响形态测量的估计。实际上，对区域灰质体积的准确量化依赖于从高分辨率MR图像中可靠的分割。MRI扫描期间的头部运动可能会偏置分割，进而可能影响形态测量。

我们的结果对于思考结构MRI，尤其是试图使用T1加权MR扫描研究个体差异的研究有重要的影响。我们使用了更直接的T1加权图像质量测量，而不是来自静息状态的测量。使用静息状态可能会捕获参与者运动的一些方面，但这并非特指在T1加权MRI扫描期间。此外，这种信息可能并不适用于所有的研究，但我们在这里使用的测量可以用于任何T1加权扫描。使用这种更直接的MRI质量测量，我们发现了通常从T1加权MR图像产生的形态变量的影响。例如，其他研究已经使用了从功能扫描中的受试者运动派生出来的图像质量的代理测量。然而，受试者运动的代理测量可能会忽视真实差异被运动所掩盖。

我们的发现是在Rosen及其同事的过去的工作基础上进行的，他们发现Freesurfer的欧拉数与Freesurfer的皮质厚度测量相关。然而，在这里，我们使用了一个更直接的图像质量指标，由CAT12工具箱派生，我们检查了这个度量与常用的Freesurfer输出的相关性。这种独立的图像质量度量的使用为图像质量对皮层下体积、皮层表面积和皮质厚度影响提供了更强的证据。在这些Freesurfer输出中，图像质量和与表面积、厚度和体积的关系存在变化；在不同的图谱中，常常可以看到正负关系。然而，图像质量与Freesurfer输出之间唯一能经受住多重比较的关系是积极的——图像质量更高的区域，这些区域的值更高。有趣的是，许多经过多重比较后仍存在的区域（如，内嗅区、中央前区、尾部中额叶区）在自动质量控制套件Qoala-T中被发现具有影响力。这些区域可能会特别受到参与者运动和图像质量的影响。最后，对于那些研究情绪的人来说，我们发现杏仁体的体积测量与图像质量相关，图像质量较高的区域在这个区域的体积较大。

考虑到我们的项目以及过去的研究，我们的结果表明，在使用T1加权图像进行未来的结构MRI分析时，考虑图像质量将是重要的。与当前的工作一致，对个体和/或群体差异感兴趣的研究应该标记/排除极差的扫描。此外，未来，研究组可能会考虑通过使用更直接的图像质量测量作为形态分析的协变量，来解释个体在运动相关图像质量上的差异。这样的策略可以解决运动相关图像质量的间接影响，并确认他们感兴趣变量的主效应。然而，就像任何“无关”的协变量一样，如果运动与其他变量共线，可能会移除与感兴趣因素相关的重要方差。细致的未来工作将需要解决这一问题，因为过去的工作已经指出MR图像质量与一般认知、体重指数和临床组状态之间的关系。

值得注意的是，我们的数据和结果有许多重要的限制，必须要强调。首先，我们在这里使用的公共数据集，健康大脑网络，并不是一个真正的随机样本。该数据集的年龄范围有限（5-21岁），并且采用了社区推荐的招募模型。研究广告特别针对那些对自己孩子的一种或多种精神症状有疑虑的家庭。鉴于这些因素，我们的人类评审员排除了大量的MRI扫描并不令人惊讶。健康大脑网络扫描了许多通常不会参与MRI研究的人（例如，有严重精神病理和其他发展挑战的青少年），因此可能不太可能产生高质量的数据。然而，我们项目中看到的数据丢失率实际上是符合过去组织的报告的。对神经发育感兴趣并在儿科样本中工作的研究团队可能会考虑使用预测运动校正工具，这些工具在整个扫描过程中定位头部的位置。其次，Freesurfer只是从结构MRI扫描中提取测量值的一种方法。其他指标，如基于体素的形态学或感兴趣区域的绘制，可能也会受到图像质量的影响。然而，这些方法通常依赖于组织分割，也可能受到图像质量的影响。将来使用这些方法的研究团队应该进行调查。最后，我们使用了一个由CAT12工具箱构造的图像质量的复合测量。这可能影响一些报告的结果。有许多图像质量的度量，每一种都可能捕获与MRI形态测量相关的噪声的独特方面。我们依赖这个聚合度量，它结合了噪声对比度比、联合变异系数、非均匀性对比度比和均方根体素分辨率。

对于这最后一个问题的进一步探讨，如何测量图像质量是一个亟需研究的领域。在这里，能够有一个单一的“等级”（由CAT12输出）激发了我们使用这个工具箱的决定。我们相信在应用学科工作的研究人员可以在他们的工作中使用这个单一的指标来进行质量控制评估，以及作为统计模型中的潜在控制变量。未来的研究可以采取一种集成的方法，将自动化的图像质量度量（即CAT12，Freesurfer的欧拉数，MRIQC，Qoala-T）与经过训练的人类评级对MR图像的判断相连接。这样的未来工作需要平衡如何将这些多个度量减少到更少的变量（以帮助应用研究团队）同时隔离噪声的独特来源。我们觉得CAT12是一个合理的起点，因为它运行速度快（大约18分钟/主题），界面相对容易使用，而且不需要强大的计算资源。

5 结论

尽管有限制，我们证明了结构成像质量的直接度量与常用的结构MRI度量以及参与者年龄强烈相关。重要的是，我们显示出图像质量的变化与脑解剖结构的推导密切相关。考虑到图像质量的变化可能影响应用研究（关注年龄、临床状态等）的结果。独特的工作，我们使用了更直接的结构MRI质量度量而不是运动和噪声的代理。将来，研究团队可能会考虑在分析中考虑这些度量，这些分析关注年龄、认知功能、精神病理学和其他因素的个体差异。这可能会导致报告效果的可重复性增强，以及最小化任何潜在的偶然关联。