基于FreeSurfer 7.1、6.0和5.3版本的脑部指标在多站点重测信度和兼容性研究

自动神经影像处理工具为提取脑部磁共振成像扫描特征提供了便捷和系统的方法。其中一个工具FreeSurfer提供了一个易用的流程来提取皮层和皮层下形态测量指标。FreeSurfer已经发布了超过25个稳定版本,不同版本被用于已发表的研究中。最新版本所产生的区域形态测量指标的可靠性和兼容性尚未得到实证评估。在本研究中,我们使用来自三个公共数据集的重复测试数据,以确定FreeSurfer 7.1、6.0和5.3版本中42个区域输出的版本内可靠性和版本间兼容性。7.1版本的皮层厚度与旧版本的兼容性较差,特别是在扣带回区域,该区域显示出最低的版本兼容性(组内相关系数0.37-0.61)。颞极、额极和内侧眶额皮层的表面积也显示出低到中等的版本兼容性。我们证实了6.0版本和5.3版本之间的苍白球和壳核体积的兼容性较低,而7.1版本与6.0版本的这些指标是兼容的。在独立样本中的重复验证显示,表面积和皮层下体积的测量结果大体相似,但区域厚度的整体可靠性和兼容性较低。当大多数研究中心使用同一版本时,批次效应校正可以调整一些版本间的效应,但当更多研究中心使用不同版本时,结果会有所不同。在一个经过质量控制的独立样本(N=106)中的年龄关联分析揭示了下游统计分析结果存在版本差异。本文发表在Human Brain Mapping杂志。

1 引言

     生物科学研究结果的可重复性最近被发现是一个主要问题,特别是在以神经影像为主的心理学和神经科学领域(Boekel等,2015;Bowring等,2019;Button等,2013;Hodge等,2020;Poldrack等,2020)。例如,关于重度抑郁障碍(MDD)的研究指出了结果的不一致性,以及由于分析方法和研究设计的变异性而难以进行比较(Beijers等,2019;Dichter等,2015;Fonseka等,2018;Kang & Cho,2020;Müller等,2017;Stuhrmann等,2011)。在一项研究中,Dinga等(2019)使用更加异质的样本和严格的统计检验,未能重复验证文献中先前发现的用于定义MDD生物型的统计显著性。在失眠(Spiegelhalder等,2015)和轻度创伤性脑损伤(mTBI)的研究中也发现了神经影像特征和疾病研究结果的不一致。对14篇关于mTBI工作记忆的报告进行的元分析显示,功能性磁共振成像(MRI)存在高活性、低活性的混合发现,有些研究甚至同时报告了高活性和低活性(Bryer等,2013)。神经影像为理解导致脑功能障碍风险的变异性提供了机制性见解,但这些发现必须是可重复的,才能将MRI衍生的生物标志物扩展到临床应用。

     理解为什么会出现这些差异以及某些发现为何可重复或不可重复是很重要的。例如,研究可能存在统计效力不足的问题,或者感兴趣的变量在不同人群中可能有不同的效应。实验结果也可能受到方法学因素的影响,如数据收集类型(Han等,2006;Jovicich等,2009;Yan等,2020)、数据处理和分析(Bennett & Miller,2013;Botvinik-Nezer等,2020;Carp,2012;Lindquist,2020)、工具版本和选择(Bigler等,2020;Dickie等,2017;Gronenschild等,2012;Meijerman等,2018;Perlaki等,2017;Tustison等,2014;Zavaliangos-Petropulu等,2022),甚至操作系统环境(Glatard等,2015)。有研究报告表明,病理组织的存在也会导致分割输出的系统性错误(Dadar等,2021)。如果样本人群和方法学存在差异,可能难以分辨出不一致发现的主要来源。

     神经影像领域最近的努力提高了对可重复性问题的认识并部分解决了相关问题。为了促进开放科学,已经发布了增强可重复性的指南和工具。开放科学旨在为研究提供透明度,以更好地理解所收集的数据、实施的代码和使用的软件、执行的分析以及包括零发现在内的完整结果范围(Gorgolewski等,2015;Gorgolewski & Poldrack,2016;Kennedy等,2019;Nichols等,2017;Poldrack & Gorgolewski,2017;Vicente-Saez & Martinez-Fuentes,2018;Zuo等,2014)。这些努力通常包括详细的文档记录和分析软件的容器化,以尽可能确保软件版本甚至操作系统在研究被重复时的一致性。其他努力如可靠性和可重复性联盟(CoRR)强调神经影像的可靠性和可重复性。这通过他们的开源重复测试数据集得到了体现,这些数据集有助于促进结构性和功能性MRI的可靠性和可重复性评估(Zuo等,2014)。与样本量相比,这些指标经常被忽视,但值得注意的是,可靠性是统计效力的一个关键决定因素(Zuo等,2019)。

     像ENIGMA(通过元分析增强神经影像遗传学)这样的大型联盟也通过在国际数据集中进行大规模统一的元分析和超级分析,解决了统计效力不足和数据处理流程差异的问题(Thompson等,2020)。分析方案由社区预先提出和批准,然后分发并公开使用。这些方案还包括数据质量控制(QC)指南,以提高异质数据集和人群间分析的一致性。

     使用这些方案的大型、公开可用且表型丰富的数据集最近已成为推动神经科学发展的强大资源(Horien等,2021)。像阿尔茨海默病神经影像学倡议(ADNI)和UK Biobank这样的研究收集了1000到10000个个体的数据(Littlejohns等,2020;Weiner等,2015),其中一些收集了跨度超过十年的纵向数据(Weiner等,2017)。自动分割工具被广泛用于这些数据集,使得数以万计的扫描可以被便捷处理,从而使神经影像特征可以用于广泛的临床和流行病学研究。然而,这些工具也存在挑战和局限性。

      这些软件更新版本处理的数据不断发布(http://adni.loni.usc.edu/2021/),这使研究人员质疑哪个版本最可靠,或者使用先前版本的工作数据和结果是否与后续发布的版本兼容。如果检测到的效应依赖于所使用的软件版本,那么这种变异性可能威胁已发表研究的可重复性并损害临床转化。然而,这些版本更新通常是必需的,以跟上神经影像领域的众多进展。例如,版本更新可能包括添加选项或工具以处理更高分辨率的图像,或更具计算效率的图像处理流程(如使用GPU进行处理)。随着新版软件的发布,我们常常缺乏关于新结果是否与先前发现一致的信息,以及软件升级的整体影响。为了理解研究变异性的来源,了解版本升级如何影响结果指标很重要。

     FreeSurfer就是神经影像领域广泛使用的一种自动特征提取和量化工具(Fischl,2012)。FreeSurfer是一个结构性MRI处理套件,允许研究人员仅从单个T1加权图像获得脑分区和度量。运行该软件只需要一个命令,但处理过程本身相当广泛——单个图像要经过30多个逐步处理阶段(https://surfer.nmr.mgh.harvard.edu/fswiki/recon-all)。

      值得注意的是,已有超过60篇研究论文发表详细介绍了FreeSurfer的算法和工作流程(https://www.zotero.org/freesurfer/collections/F5C8FNX8)。整体处理步骤包括:图像预处理、脑提取、灰质和白质分割、白质和脑膜表面重建、皮层和皮层下区域标记,以及使用立体定位图谱对皮层表面进行球面非线性配准,从而实现更准确的回沟和脑沟标志物对齐。然后用户可以提取特征,如皮层厚度(定义为白质和脑膜表面之间的距离)、表面积(或代表白质表面的网格上所有三角形的面积),以及以立方毫米为单位测量的皮层和皮层下体积(Fischl,2012)。

     仅在2020年,PubMed上搜索"freesurfer"就有344篇出版物,表明其作为神经影像资源的广泛使用。在过去20多年里,它一直是一个流行的工具,期间发布了超过25个不同的稳定版本(https://surfer.nmr.mgh.harvard.edu/fswiki/PreviousReleaseNotes)。版本更新包括,例如,改进皮层标签的准确性或在预处理步骤中的变更/添加,如去噪或偏场校正(https://surfer.nmr.mgh.harvard.edu/fswiki/ReleaseNotes)。这些版本变化可能影响某些提取的测量值。Gronenschild等(2012)比较了FreeSurfer v4.3.1、v4.5.0和v5.0.0的体积和皮层厚度测量,发现许多测量值存在显著差异。在下一个版本v5.3发布后,Dickie等(2017)对FreeSurfer v5.1和v5.3输出的皮层厚度测量进行了相关性分析,发现两个版本之间具有高度兼容性。这些工作帮助为ENIGMA等联盟制定协议提供了依据,其中运行了早于v5.0版本FreeSurfer的研究组被要求重新运行处理流程,而v5.1和v5.3都被用于某些工作组的分析。最近的一项研究,Bigler等(2020)比较了FreeSurfer v5.3和v6.0的部分选定体积,发现苍白球体积的版本间兼容性较低。

     最新的稳定版本v7.1尚未经过彻底的版本内可靠性和版本间兼容性评估。在此,我们使用三个公开可用的重复测试数据集评估了最近三个FreeSurfer稳定版本发布——v5.3(2013)、v6.0(2017)和v7.1(2020)的可靠性和兼容性。我们旨在确定皮层厚度、表面积和皮层下体积的(1)版本间兼容性和(2)版本内可靠性。我们还使用独立数据集进行复制分析,并测试使用混合版本的批次校正如何影响这些重复测试数据集中的年龄关联。

      为进一步测试这些版本差异可能如何影响人群水平的发现,我们在UK Biobank的一个横断面数据子集(一个中老年人群队列)上运行了所有三个FreeSurfer版本。我们对所有区域输出进行了视觉质量控制,并计算了各版本对之间的Dice重叠评分。最后,我们确定了每个感兴趣区域和指标的年龄线性效应,以了解这种效应在软件版本间的稳定性。

2 方法 

2.1 数据集 

     来自人类连接组计划(HCP)(Van Essen等,2013)、肯尼迪克里格研究所(KKI)(Landman等,2010)和开放式影像研究系列(OASIS-1)(Marcus等,2007)的重复测试数据集被用于评估FreeSurfer版本内和版本间的可靠性。我们将分析限制在76名年龄在19-61

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值