大型MRI数据集的调和处理,用于分析人一生中大脑成像模式的变化

随着医学影像学进入信息时代,并迅速增长对大数据分析的需求,对来自不同队列的、采用各种获取协议的影像数据进行有效的整合和调和已变得至关重要。我们详细描述了一项全面的努力,该努力整合并调和了一个大规模数据集,包括来自18个不同研究的10,477份没有已知神经系统或精神疾病的参与者的结构性脑部MRI扫描,这些研究代表了地理上的多样性。我们利用这个数据集和基于多图谱的图像处理方法,从较大的解剖区域到单个皮层和深部结构,获得了大脑的层次性划分,并推导出了大脑结构在整个生命周期(3至96岁)的年龄趋势。关键的是,我们提出并验证了一种在非线性年龄趋势存在的情况下调和这些汇总数据集的方法。我们提供了一个基于网络的可视化界面,用以生成和展示这些年龄趋势,使未来的大脑结构研究能够将其数据与这个大脑发展和衰老的参考标准进行比较,并检查与疾病可能相关的偏离范围。本文发表在NeuroImage杂志。可添加微信号1996207406318983979082获取原文及补充材料,另思影提供免费文献下载服务,如需要也可添加此微信号入群)

亮点:

  • 一种多站点调和方法,汇集了来自18项研究的体积数据,同时控制了非线性年龄效应。

  • 得到的数据集覆盖了3岁到96岁的年龄范围,用于推导出整个生命周期中大脑结构的年龄趋势。

  • 提供了一个交互式可视化工具,用于探索年龄趋势和比较新数据。

关键词: MRI、分割、FreeSurfer、MUSE、大脑、感兴趣区域(ROI)

引言 

      大脑结构的变化在人的一生中的不同阶段都已被研究,这些研究关注年龄和神经退行性疾病(Fjell和Walhovd,2010; Habes等,2016),以及大脑发育(Courchesne等,2000; Sowell等,2001; Toga等,2006)。大量的影像学研究报告了青春期、早期成年期和晚期成年期大脑结构的年龄相关变化(Giedd等,1999; Driscoll等,2009; Mills等,2016; Pfefferbaum等,1994; Tamnes等,2010; Terribilli等,2011)。传统上,大多数神经影像学研究限于对单中心数据集的分析,以最小化数据中与仪器相关的变异性。然而,近年来,神经影像研究社区越来越倾向于数据共享,通过多方合作努力汇集现有数据资源,形成覆盖广泛年龄范围的大型、多样化样本(Alfaro-Almagro等,2019; Thompson等,2014)。这种集体努力对于开发适用于不同成像设备以及广泛人口统计特征的诊断和预后生物标志物至关重要,这对于将神经影像研究转化为临床设置是必不可少的。

       许多研究表明了将多个队列的数据结合起来进行大型分析的重要性。例如,多站点ENIGMA联盟的数据发现了与创伤后应激障碍(Logue等,2018)、精神分裂症(van Erp等,2016)和重性抑郁障碍(Schmaal等,2016)相关的体积异常。然而,在结合多个研究和地点的成像数据时存在重要挑战。一个主要挑战是图像获取协议、扫描仪硬件和软件缺乏标准化。已证明扫描仪间的变异性影响了后续分析(如基于体素的形态测量学(Takao等,2011)、病变体积(Shinohara等,2017)和扩散张量成像(DTI)测量(Zhu等,2011))中获得的测量值。样本人口统计学的差异也是一个重要的问题,当结合多站点数据时应谨慎处理。例如,MR对比度可能因大脑水含量的差异而受到混淆,而这种差异跨越年龄和诊断组(Bansal等,2013)。         此外,包含低质量数据集可能会损害基于影像的生物标志物的可靠性。尽管理解和识别影像测量中的所有变异性来源至关重要,但在神经科学研究中通常低估了可靠性的评估和优化(Zuo等,2019)。最后,大规模研究最终需要强大且完全自动化的管道,无需手动检查和纠正大量数据,因为这既耗时又主观,且不太可能在临床上采用。

      在本文中,我们展示了一项重大努力,旨在创建横断面的LIFESPAN(整个生命周期)数据集,以量化表征人类生命周期(3至96岁)中大脑解剖结构的与年龄相关的差异。为此目的,我们汇集了18项研究的结构性脑部MRI扫描,创建了一个大型且最重要的是多样化的样本(N = 10,477)。尽管我们的重点是结构性MRI,但我们的方法论适用于任何类型的成像数据。我们测试了一个完全自动化和标准化的多图谱标记管道的稳健性,即MUSE:利用配准算法和参数以及本地最优图谱选择的多图谱区域分割(Doshi等,2016),它将大脑分割成一组层次性预定义的感兴趣区域(ROIs),并测量这些区域的体积。多图谱分割方法的一个显著优势是它计算了大量参考图谱的共识标记,因此在标记融合期间同时提供了基于目标扫描的本地相似性选择图谱的机制。参考图谱代表了跨越广泛年龄范围的参与者的解剖变异性,从而使得在高度异质的数据集中实现更加稳健的分割。

      我们在本文中提出了一种调和方法,以应对在非线性年龄相关的大脑体积差异存在的情况下,结合18个来自不同年龄范围的研究的独特挑战。我们将调和定义为在多站点数据中明确去除与站点相关的效应。在整个生命周期中,大脑结构的变化是多种成熟和神经退行性过程复杂相互作用的结果。这些过程的影响可能在大脑上产生大的空间和时间变化(Toga等,2006)。一个简约的年龄模型,如线性或二次模型,不太可能充分捕捉生命周期中年龄和体积之间的关系(Fjell等,2010; Ziegler等,2012)。此外,我们数据集中的研究在年龄上并没有完全重叠,使得基于样本匹配的技术不可行(Karayumak等,2019)。

       为了捕捉生命周期中与年龄相关的大脑解剖体积差异的非线性,我们提出拟合一个带有惩罚非线性项的广义加性模型(GAM),以描述年龄效应(Hastie和Tibshirani,1986; Wood,2017)。在单个模型中,我们估计了跨站点成像测量中的位置(平均值)和尺度(方差)差异。在没有基准真值的情况下,我们进行了模拟实验,以评估不同样本组成条件下的调和性能。模拟实验利用了一个覆盖整个成年生命周期的大型单扫描仪研究,作为基准真值的估计。通过采样这项研究并使用模拟,我们评估了样本人口统计学和相对样本大小对调和精度的影响。

       其他处理跨多个站点的高维数据集成的社区也面临着协调的必要性。在可用的方法中,ComBat最初是为了消除基因组数据中的批次效应而提出的(Johnson等,2007),最近已被适用于扩散张量成像数据(Fortin等,2017)、皮层厚度测量(Fortin等,2018)和功能连接矩阵(Yu等,2018)这种方法被证明能够去除不需要的变异性来源,特别是站点差异,同时保留了数据中由于其他生物学相关协变量导致的变化。我们在LIFESPAN数据集的协调管道中采用并测试了ComBat,结合广义加性模型(GAM),我们将这种方法称为ComBat-GAM。我们基于多变量大脑年龄预测任务的表现,将ComBat-GAM与不进行协调以及使用线性模型的ComBat进行了比较。

      成功的影像测量调和使我们能够估计LIFESPAN数据集每个解剖区域的与年龄相关的体积差异,我们将这称为年龄趋势。得到的年龄趋势得到了数据集大样本量的支持,可以作为神经影像学界的参考。我们提供了一个交互式在线工具,允许研究人员可视化不同解剖区域的年龄趋势,以及用LIFESPAN数据集校准他们自己的数据,并将用户特定数据定位在参考趋势中。最后,我们开发了一个软件包,使用户能够在自己的数据集上应用ComBat-GAM。

2.材料和方法 

2.1. MRI数据集 

       我们收集了来自18项研究的结构性MRI(T1)数据。汇总数据集包括了每项研究中典型发展和典型衰老的参与者的基线扫描,且提供了年龄和性别信息。我们将典型发展和典型衰老定义为没有已知神经系统或精神疾病的诊断。我们考虑了多中心成像研究,这些研究努力统一协议作为单一研究;这包括阿尔茨海默病神经影像倡议(ADNI)(Jack等,2008),巴尔的摩衰老纵向研究(BLSA)(Armstrong等,2019; Resnick等,2003),青年成年期冠状动脉风险发展研究(CARDIA)(Friedman等,1988),儿科成像、神经认知和遗传研究(PING)(Jernigan等,2016),费城神经发育队列(PNC)(Satterthwaite等,2016),以及英国生物银行(Alfaro-Almagro等,2019)。由于主要扫描仪更新,ADNI(ADNI-1, ADNI-2)和BLSA(1.5T SPGR, 3T MPRAGE)的不同阶段被视为独立的研究。

      LIFESPAN数据集中每个ADNI和BLSA受试者包括一次扫描。尽管我们在内部处理了来自英国生物银行的21,315次扫描,分成10个随机批次,但我们决定只包括数据集中的一个批次,以避免估计过度受英国生物银行影响的年龄趋势。表1显示了LIFESPAN数据集中各研究数据集的一般特征。我们注意到数据集之间存在固有的人口统计学多样性;例如,尽管整体数据集中54%是女性,但各项研究的女性比例从38%到69%不等。研究还涵盖了不同的年龄范围,尽管这旨在产生覆盖大部分人类生命周期的汇总数据集。在补充表1中,我们提供了在数据可用的情况下,由于种族和民族导致的研究参与者的额外人口统计学多样性。总体上,大多数参与者是白人,有一部分重要的黑人参与者;还有少量的华裔亚洲人和西班牙裔参与者。图1展示了LIFESPAN数据集中每项研究的年龄分布,按中位年龄排序。各数据集中的扫描仪型号和获取协议参数在补充表2中给出。所有参与者都由LIFESPAN数据集中每项研究的主要机构获得了知情同意。每个队列的主要机构的伦理委员会批准了其研究。

表1. LIFESPAN数据集中包含的数据集的摘要特征,按中位年龄排序。

图片

图片

图1. 按中位年龄排序的LIFESPAN数据集中研究的年龄分布。

中位年龄最小的研究,PING,包含了3至21岁的参与者。中位年龄最大的研究,ADNI-1,包含了59至89岁的参与者。

2.2. MRI图像处理

      对每位参与者的T1加权扫描应用了完全自动化的处理流程。预处理包括矫正磁场强度不均匀性(Tustison等,2010)和去除头骨,即使用多图谱方法提取大脑组织(Doshi等,2013)。为了将每个T1扫描分割成一组预定义的解剖感兴趣区域(ROIs),我们使用了一种多图谱、多扭曲标签融合方法,即MUSE(Doshi等,2016),该方法在独立评估中与多个基准方法相比获得了最高精度(Asman等,2013)。在这个框架中,首先使用两种不同的非线性配准方法将带有半自动提取的基准真实(ground truth)ROI标签的多个图谱单独扭曲到目标图像上。然后应用空间自适应加权投票策略将整体融合成最终的分割。此过程用于将每个图像分割成覆盖整个大脑的145个ROIs。我们计算了这145个ROIs的体积,以及通过将单个ROIs组合成更大的解剖区域,按照预定义的ROI层次性结构获得的113个复合ROIs的体积。LIFESPAN数据集中使用的ROIs列表在补充表3中给出。

2.3. 提取变量的质量控制 

      按最终结果变量指导的系统质量控制(QC)程序进行,以识别和排除低质量案例。此程序应用于一组69个代表性ROIs,包括深层大脑结构和亚叶水平皮层分割,以及颅内体积(ICV)(QC程序中使用的ROIs完整列表在补充表4中给出)。选定ROIs的体积经过ICV校正,并为每个数据集独立进行z分数转换,以识别数据异常值。我们将异常值定义为体积比特定ROI的研究内样本平均值高出三个标准差(SD)。包含至少一个异常ROI的所有扫描都被标记为手动检查。

2.4. 影像变量的调和 

     我们对个别ROI体积进行了调和,使用的是一种建立在Johnson等人(2007年)提出的统计调和技术上的模型,用于对数据进行位置和规模(L/S)的调整。这种方法在一个单一模型中估计了跨站点ROI体积的位置(均值)和规模(方差)差异,以及因数据中打算保留的其他生物学相关协变量而产生的变化。一旦估计出来,通过移除因站点差异导致的位置和规模效应,就可以实现标准化的ROI体积。

      对于站点i、受试者j、区域k,一个ROI体积Yijk的L/S调整的一般框架是:

图片

     其中,fk(Xij)表示由生物学相关协变量X捕获的Y的变化,gik是站点i和区域k的估计位置效应,dik是站点i和区域k的估计规模效应。在线性情况下,fk(Xij) = ak + Xij * bk,相应的调整是:

图片

      在我们的案例中,我们用广义加性模型(GAM)替代fk(Xij),GAM是一个关于协变量年龄、性别和颅内体积(ICV)的函数,分别由xij、zij和wij表示,以允许数据信息支持的ROI体积中的非线性年龄趋势。GAM允许在xij中表示灵活的非线性,使用基础展开来表示。此外,模型拟合的目标函数中的惩罚性确保了fk(Xij)的平滑性,并避免了对观测数据的过度拟合(Hastie和Tibshirani,1986)。在我们的设计中,我们使用了Wood(2003)描述的薄板回归样条进行基础展开(编者注:薄板回归样条特别适合处理非线性关系和高维数据,因为它们能够灵活地适应数据的局部特性,同时通过适当的正则化避免过度拟合),为年龄包含了一个平滑的非线性项,以及性别和ICV的参数项。该模型是基于惩罚回归样条估计的,平滑度是使用受限最大似然(REML)标准内部选择的。因此,我们基于GAM的协变量模型被估计为:

图片

     我们将非线性的广义加性模型(GAM)与之前提出的ComBat框架(Johnson等人,2007年)整合在一起,用于多个ROI的多元调和。ComBat的主要前提是,多变量结果(例如,跨ROI的体积)的位置和规模效应来自一个共同的参数先验分布。我们假设g*ik的先验为正态分布,d*ik的先验为逆伽马分布。ComBat使用经验贝叶斯框架从数据中估计先验分布的超参数。一旦估计出来,这些超参数用于计算所有位置和规模效应的条件后验估计,其公式在Johnson等人(2007年)的文章中给出。ComBat使用这些条件后验估计来调整ROI体积Y*ijk。结合我们的非线性GAM模型,我们得到了ComBat-GAM调整:

图片

     其中,g*ik 是站点i和区域k的位置效应的后验估计,d*ik 是站点i和区域k的规模效应的条件后验估计。我们在补充材料中提供了ComBat-GAM算法的详细信息。

2.5. 使用GAM与线性和二次模型在单一站点数据上进行拟合优度评估 

      我们首先对提出的GAM结构与单一站点数据上的线性和二次模型进行了比较评估。为了比较,我们选择了三个具有不同年龄范围的大型研究。费城神经发育队列(PNC)包括了1444名8至24岁的参与者(Satterthwaite等,2016)。波美拉尼亚健康研究(SHIP)包括了2738名21至91岁的参与者(Völzke等,2010)。巴尔的摩衰老纵向研究的3-T队列(BLSA-3T)包括了964名22至96岁的参与者(Armstrong等,2019)。对于每个ROI,我们拟合了一个线性模型、一个二次模型和一个带有平滑非线性年龄项的GAM(广义加性模型),以预测年龄对体积的影响。在所有模型中,性别和颅内体积(ICV)作为额外的协变量被包括在内。回归模型分别应用于这三个研究的数据集,以避免与站点效应的混淆。我们通过计算每个模型的调整R平方来量化拟合优度。此外,我们使用每个数据集50%的样本进行了分割样本实验,以使用均方根误差(RMSE)评估每个模型的样本外拟合。我们还进行了卡方检验,以评估使用GAMs比其他模型显著降低残差平方和(RSS)的假设。

2.6. 模拟实验 

      提出的调和模型估计了ROI体积与年龄之间的非线性关系。从多站点数据估计的年龄趋势的准确性是评估调和性能的关键指标。然而,由于缺乏基准真值数据,使用真实数据进行评估是不可能的。因此,我们进行了模拟实验,以评估在已知站点效应存在的情况下调和的效果,针对两种不同条件。为此,我们利用了覆盖21至91岁的大型单一站点SHIP研究数据集(N = 2738)。

      在所有实验中,我们模拟了三个假设站点(命名为站点A、站点B和站点C)的海马体体积,使用来自SHIP的实际海马体体积。首先在整个SHIP数据上使用带有非线性年龄项的GAM模型估计了一个基准真值年龄趋势(性别和ICV效应作为协变量被包括在内)。对于这三个站点中的每一个,我们根据每个实验强加的样本大小和年龄范围限制随机抽取数据。然后在实际的海马体体积上引入站点特定的位置和规模效应,以独立生成每个实验的模拟数据集。

      我们使用GAM方法进行了L/S(位置和规模)调整的调和。调和后估计的年龄趋势的误差被量化为沿估计趋势的100个等距年龄网格点上的平均绝对误差(MAE),与基准真值趋势进行比较,并以平均ROI体积为标准化,以产生相对平均绝对误差(rMAE)。

2.6.1. 数据站点年龄范围重叠程度和样本大小的影响

      模拟实验I旨在研究所提出方法对于协调数据集间年龄范围重叠程度和每个站点样本大小的敏感性。为此,我们固定了站点A和站点C的年龄范围(分别为30-50岁和60-80岁),同时允许站点B有一个30年的滑动年龄范围,变化范围从年轻(30-60岁)到年老(50-80岁)。我们还允许所有站点的样本大小从50变化到500。我们对这两个自由参数进行了网格搜索,以确定在调和后获得准确年龄趋势的最低要求。

2.6.2. 平衡样本大小的影响

      模拟实验II旨在研究具有不平衡样本大小的站点的调和。我们评估了从相对较大的站点进行子抽样以创建平衡样本组成的效果。我们的主要假设是,为了生成平衡样本大小的数据集,而将一些数据排除在调和之外,可能会导致跨研究更准确的对齐。为此,我们固定了站点A和站点C的样本大小为100,并通过从400名参与者中随机子抽样来改变站点B的大小。我们比较了使用完整站点B样本(n = 400)与在子抽样站点B后的调和结果,子抽样比例分别为25%(n = 100),50%(n = 200),和75%(n = 300)。

2.7. LIFESPAN数据集的体积测量调和

     我们在LIFESPAN样本的全部145个解剖感兴趣区域(ROIs)上应用了ComBat-GAM,以消除每个ROI的位置和规模效应。

      类似于Fortin等人(2018年)的做法,我们通过使用调和前和调和后的ROI体积作为特征,在交叉验证的大脑年龄预测任务上评估了调和的准确性。大脑年龄模型是使用一个带有一个隐藏层的全连接神经网络构建的。完整LIFESPAN样本的ROI体积被用作模型的输入特征,此外还包括性别和颅内体积(ICV)。由于单个ROIs和复合ROIs之间的冗余,我们在年龄预测模型的特征集中只使用了单个ROIs。我们进行了10倍交叉验证,以及留出站点交叉验证,以评估调和对未见站点大脑年龄预测的影响。网络使用Adam优化器进行训练,均方误差作为成本函数,学习率恒定为1 × 10^-3。全连接层由100个节点组成,每个节点具有RELU激活函数。输出层由一个具有线性激活函数的单节点组成。我们在完整的LIFESPAN数据集上使用未调和的ROIs、使用线性模型的ComBat调和的ROIs和使用ComBat-GAM调和的ROIs分别训练了不同的模型,并进行了10倍交叉验证。每个模型的预测准确性使用平均绝对误差(MAE)来评估,即预测年龄和实际年龄之间的平均绝对差。我们还进行了留出站点验证,使用PNC、SHIP和BLSA-3T研究作为每个实验的独立测试数据集,以评估调和在预测训练模型之前未见数据的大脑年龄方面的效果。

2.8. LIFESPAN数据集中ROI体积的年龄趋势 

      在进行调和后,我们使用GAM来模拟平滑的非线性年龄趋势,计算了每个解剖感兴趣区域(ROI)的生命周期体积趋势。由于我们主要关注年龄与ROI体积之间的关系,因此我们排除了性别和颅内体积(ICV)的影响。结果产生的年龄趋势不受性别和ICV效应的影响,使我们能够全面分析人类一生中的大脑体积变化。

      考虑到ROIs的数量众多,我们开发了一个交互式应用程序,为最终用户提供了一个实用工具,用于选择性地可视化不同大脑区域计算出的年龄趋势。这个可视化应用程序允许用户展示LIFESPAN年龄趋势,并在与LIFESPAN数据校准后定位他们自己的数据。该应用程序使用R编程语言中的Shiny包(Chang等,2019)创建,并托管在以下URL:https://rpomponio.shinyapps.io/neuro_lifespan/。

3.结果

3.1. 提取变量的质量控制 

      我们手动检查了1786张图像,大约占原始样本的17%。图像根据整体质量和分辨率进行评估。因此,我们基于整体质量低下排除了9例。在QC过程中排除的案例详细信息见补充表5。

3.2. 使用GAM与线性和二次模型在单一站点数据上进行拟合优度评估 

     与线性模型相比,GAM在PNC的124/145个ROIs、SHIP的123/145个ROIs和BLSA-3T的126/145个ROIs中基于调整后的R平方获得了更好的拟合优度。与二次模型相比,GAM在PNC的101/145个ROIs、SHIP的116/145个ROIs和BLSA-3T的128/145个ROIs中基于调整后的R平方获得了更好的拟合优度。比较评估的总结见表2,其中展示了GAM在样本外拟合中相对于线性模型的明显优势,以及相对于二次模型的边际优势。卡方检验的结果见补充表6。

表2. 使用GAM与线性和二次模型在单一站点数据上进行拟合优度评估的结果。

图片

图2展示了在三个选定研究中海马体体积的情况,分别使用线性模型、二次模型和GAM进行了单独拟合。

图片

图2. 使用线性模型、二次模型和GAM比较三个研究(PNC、SHIP和BLSA-3T)中海马体体积的年龄趋势估计。绘制的年龄趋势是针对女性,并假设有平均颅内体积(ICV)。在左上角的面板中,不同拟合之间的差异不明显。在右上角和左下角的面板中,二次拟合和GAM拟合相比于线性拟合都展示了明显的改进。

3.3. 模拟实验 

3.3.1. 数据站点年龄范围重叠程度和样本大小的影响 

      在图3中,我们展示了模拟实验I约束条件下的四种可能场景。站点B的年龄范围固定宽度,但可以从较年轻的年龄变化到较老的年龄。每个站点的样本大小也可以变化。在图4中,我们展示了对模拟中两个自由参数的网格搜索结果。估计误差表示为网格中每个单元10次随机重复的年龄趋势估计的中位相对平均绝对误差(rMAE)。

图片

图3. 在模拟实验I的约束条件下的四种可能场景,评估了不同程度的年龄重叠和样本大小对调和性能的影响。站点B的年龄范围可以从较年轻的年龄变化到较老的年龄。在左上角的面板中,站点B仅与站点A重叠,而不与站点C重叠。在右下角的面板中,站点B仅与站点C重叠,而不与站点A重叠。在右上角和左下角的面板中,站点B部分与站点A和站点C重叠。

图片

图4. 模拟实验I中两个自由参数与年龄趋势估计误差之间的关系:站点B的年龄范围和每个站点的样本大小。注:估计误差表示为网格中每个单元10次随机重复的年龄趋势估计的相对平均绝对误差(rMAE)。

      当样本大小超过200且站点间年龄重叠相对平衡时(站点B的中位年龄在50至60岁之间),结果通常会改善。模拟的范围限于三个站点,且人为引入了基准站点效应。然而,我们从结果中推断,成功的多站点调和需要年龄范围重叠。在我们的LIFESPAN数据集中,唯一一个单一站点出现的年龄范围是超出8岁和95岁的年龄边界。我们提醒,在这些极端边缘,我们的年龄趋势估计可能不太可靠。此外,我们强调,我们后续分析的重点不是对8岁以下发育范围的年龄趋势得出强有力的结论,而是展示如何从大型多站点数据集中获得支持的年龄趋势。

3.3.2. 平衡样本大小的影响 

      图5展示了从相对较大站点进行不同程度子抽样的年龄趋势估计误差。当使用了所有数据点时,即使站点间的样本大小相对比例严重不平衡(n = 400 vs n = 100),也达到了最优性能。这些结果表明,在调和后进行年龄趋势估计时,减少样本大小的负面影响大于样本组成不平衡的影响,这与我们最初的假设相反,即平衡的数据集会导致更好的调和。

图片

图5. 模拟实验II中年龄趋势估计误差与站点B子抽样比例之间的关系。站点B的原始样本大小是站点A和站点C的四倍。在0.25时,子抽样后站点B的大小等于站点A和站点C的大小。在0.5时,子抽样后站点B的大小是站点A和站点C的两倍。当使用所有数据点时,结果最优。

注:1子抽样比例定义为子抽样大小与站点B原始样本大小之比。2年龄趋势估计误差表示为年龄趋势估计的相对平均绝对误差(rMAE)。

3.4. LIFESPAN数据集的体积测量调和

      我们提出的调和方法在控制了年龄、性别和颅内体积(ICV)后,消除了与站点相关的位置和规模效应。图6展示了调和后对海马体体积所做的调整。对其他重要结构的调整,以及对总灰质和总白质的调整,在补充图1中展示。调和后,站点的残余体积如预期地集中在零点,表明消除了位置效应。对于海马体,规模效应不那么强烈,调和前后站点的残余体积显示出类似的方差。

图片

图6. 使用GAM校正年龄、性别和颅内体积(ICV)后,调和前后海马体体积的比较。

研究根据中位年龄从年轻到年老排序。在左侧面板中,体积未根据站点调整。在右侧面板中,使用ComBat-GAM调整了体积,该方法在控制生物学协变量后消除了跨站点的位置(均值)和规模(方差)差异。为了视觉辅助,水平线在0、-200和200处绘制。其他ROI体积的比较见补充图1。

     使用参与者ROI体积进行10倍交叉验证训练的模型得到的年龄预测,在数据调和后更为准确。图7展示了使用未调和数据、使用线性年龄模型的ComBat调和数据,以及使用ComBat-GAM调和数据训练的模型的预测年龄和实际年龄。虽然使用线性模型的ComBat应用于年龄预测准确性有所帮助,与不进行调和相比,使用GAM取得了三种方法中最好的结果,平均绝对误差(MAE)为5.35。

图片

图7. 使用三种调和方法和10倍交叉验证的全连接神经网络进行年龄预测结果的比较,输入特征为ROI体积。MAE表示平均绝对误差(即实际年龄减去预测年龄)。在左上角的面板中,数据未针对站点进行调整。在右上角的面板中,数据使用线性模型的ComBat进行了调和。在左下角的面板中,数据使用ComBat-GAM进行了调和。

      在使用PNC、SHIP和BLSA-3T作为测试数据集的留出站点验证实验中,与使用未调和数据或使用线性年龄模型的ComBat调和数据相比,使用ComBat-GAM进行调和一致地提高了每个数据集的预测准确性(表3)。

表3. 每种调和方法的留出站点年龄预测结果。

图片

MAE:平均绝对误差,即预测年龄与实际年龄之间的平均绝对差异。

3.5. LIFESPAN数据集中ROI体积的年龄趋势 

      LIFESPAN数据集中第三脑室、海马体、丘脑和枕极的年龄趋势在图8中展示,而4个较大解剖区域的年龄趋势——总灰质、额叶灰质、总白质和深灰质——则在图9中展示。

图8. 使用结合了18项研究、覆盖3至96岁年龄范围的LIFESPAN数据集,对选定ROI体积的年龄趋势进行展示。数据通过ComBat-GAM进行了调和。绘制的年龄趋势是针对女性,并假设有平均颅内体积(ICV)。

图9. 使用结合了18项研究、覆盖3至96岁年龄范围的LIFESPAN数据集,对选定的复合ROI体积的年龄趋势进行展示。复合ROI体积是通过将单个ROIs组合成更大的解剖区域,遵循预定义的ROI层次性结构得到的。数据通过ComBat-GAM进行了调和。绘制的年龄趋势是针对女性,并假设有平均颅内体积(ICV)。

      从LIFESPAN数据得出的年龄趋势展示了在单个ROIs和复合ROIs两个尺度上的变异性。在单个ROI水平上,海马体在生命周期后期显示出加速萎缩。例如,从50岁到60岁,根据年龄趋势,海马体体积在10年内下降了0.344%。相比之下,从70岁到80岁,海马体体积下降了5.132%,从80岁到90岁下降了5.944%。枕极体积在整个生命周期中相对稳定。总灰质体积在青春期期间表现出快速下降,25岁之后则更渐进地下降。总白质体积在青春期期间增长,在30至70岁之间保持稳定,75岁之后逐渐下降。

       通过以下URL托管的基于网络的应用程序提供了调和数据集中每个ROI的年龄趋势:https://rpomponio.shinyapps.io/neuro_lifespan/。该应用程序允许用户查看从本研究中调和的145个ROIs和113个复合ROIs集合中选定的任何ROI的年龄趋势。用户可以上传来自新研究的ROI体积,将它们可视化并与呈现的年龄趋势进行比较。应用程序还允许用户通过在控制年龄、性别和ICV后,消除新ROI体积与参考数据集之间的位置(均值)和规模(方差)差异,将他们的数据与预先计算的趋势对齐。图10展示了该应用程序被用于将一个独立数据集的海马体体积与LIFESPAN数据集中该ROI的年龄趋势进行可视化对比的屏幕截图。

图片

图10. 基于网络的应用程序的屏幕截图,该应用程序允许可视化我们数据集中每个解剖感兴趣区域(ROI)的年龄趋势。在红色区域中,一个独立数据集在进行了MUSE(利用配准算法和参数以及本地最优图谱选择的多图谱区域分割)分割后被上传。在控制年龄、性别和颅内体积(ICV)后,通过消除新ROI体积与参考数据集之间的位置(均值)和规模(方差)差异,将新值与LIFESPAN年龄趋势对齐。

4.讨论 

     我们描述并验证了一种用于跨多个扫描仪和队列调和和汇总神经影像数据的方法。使用这种方法,以及来自18项神经影像研究的区域体积测量,我们创建了一个几乎覆盖整个人类生命周期的大型结构性MRI扫描数据集。我们应用了一个完全自动化的图像处理流程来提取区域体积,接着进行了质量控制程序以确保数据完整性,并使用了一种系统性的调和方法来在控制非线性年龄效应的同时消除站点效应,最终目标是推导出258个大脑区域在多个分辨率水平上的年龄趋势。为了便于使用我们的方法和数据,我们开发了一个交互式的可视化和调和工具,用于显示单个解剖区域的年龄趋势。该工具提供了一个参考框架,用于将新队列的值与从10,477名参与者估计的年龄趋势进行比较。

      我们提出了使用广义加性模型(GAMs)来捕捉年龄相关的大脑结构差异中的非线性特征,同时避免过度拟合。每个ROI都通过包含年龄作为非线性预测因子的GAM进行建模,并通过受限最大似然法和正则化来优化,以估计平滑函数。GAMs曾经被应用于捕捉青少年大脑发育中的非线性趋势的研究(Satterthwaite等,2014)。在我们使用三个独立数据集进行的实验验证中,这些数据集具有大样本量且覆盖不同的年龄范围,我们展示了与线性和二次模型相比,非线性模型更好地捕捉了生命周期不同阶段ROI体积的年龄相关差异。GAMs相对于线性模型的优越性能与灰质叶(Giedd等,1999)、基底节(Ziegler等,2012)和晚年参与者的海马体(Allen等,2005; Janowitz等,2014)中的非线性证据一致。

      为了更好地理解我们的调和程序相对于每项研究所覆盖的年龄范围的行为,我们利用了一个单一站点研究进行了模拟实验,在其中引入了人为的站点效应。这些模拟实验的第一个结论是,部分重叠的年龄范围比分离的年龄范围更可取。这个结果是预期的,因为在非线性年龄效应存在的情况下,年龄分离的研究应该难以调和。第二个结果表明,使用所有可用数据比在多站点样本中平衡的好处更为可取。

       研究已经使用解剖感兴趣区域(ROI)的区域分割来理解大脑在生命周期中的形态变化以及疾病对大脑的影响(Giedd等,1999;Ziegler等,2012)。年龄常常与各个区域的大脑萎缩相关联(Coffey等,1998;Habes等,2016),这可能与年龄相关的病理状态,如神经退行性疾病(Dickerson等,2009;Whitwell等,2007)相关,但也与正常老化过程相关,这一过程被认为伴随着白质的脱髓鞘和轴突损失(Hinman和Abraham,2007)。个体的遗传特征、生活方式、环境和与疾病相关的风险因素共同作用,对大脑区域对年龄相关变化的易感性做出贡献(Janowitz等,2014;Rodrigue等,2013)。我们调和后的数据表明,不同ROIs的年龄趋势的形状和非线性变化具有显著的可变性,这与先前的报告一致(Courchesne等,2000;Walhovd等,2011)。例如,总灰质(GM)体积在儿童晚期和青春期迅速减少,并在成人生活中继续减少,尽管减少的速度要慢得多。我们发现,总脑白质(WM)体积呈现倒U型趋势,童年和青春期期间迅速增加,然后在大约60岁左右开始下降趋势,类似于Walhovd等人(2005年)的大脑WM体积趋势。深部GM结构似乎在成年早期保持稳定,之后体积开始下降。

       当ROI作为后续分析中的构建块时,了解调和对随后计算的生物标志物指数的影响非常重要。为了达到这个目标,我们使用了从模型中预测的大脑年龄,该模型总结了跨多个ROI的体积测量,作为捕捉典型大脑老化过程的指数,这一指数在文献中受到越来越多的关注(Cole和Franke,2017;Habes等,2016;Dosenbach等,2010;Erus等,2015;Franke等,2010)。我们的结果表明,与未调和数据相比,调和对计算大脑年龄有益,减少了预测误差,基于图7中呈现的平均绝对误差(MAE)的百分比差异,降低了11.3%。这是一个显著的改进,尤其是因为它可能会影响残差的价值(大脑年龄 - 年龄),这通常用于标记先进的或有韧性的大脑老化者(Eavani等,2018)。

      当前研究的一个局限性是队列的种族多样性不足。这部分是由于神经影像学研究的地理采样偏差所导致的,这些研究主要集中在美国和欧洲。亚洲被低估了,但目前有几个公共影像数据集可以增加样本。可靠性和重复性联盟(CoRR)就是一个大型MRI库的例子,其中包含了几个中国参与者的队列,未来可以包含在分析中(Zuo等,2014)。此外,西南大学成人生命周期数据集(SALD)为19至80岁的中国健康参与者提供了横断面样本的影像(Wei等,2018)。除了种族之外,还有其他可能影响神经影像的多样性来源,包括遗传和环境因素以及亚临床病理,这些在研究中较少评估;这些因素的潜在神经影像相关性可能受到调和方法的影响。我们鼓励那些可能有健康对照数据集的人使用我们提供的公开可用的可视化工具,作为LIFESPAN数据集的产物(https://rpomponio.shinyapps.io/neuro_lifespan/)。最后,我们开发了一个软件包,使用户能够在自己的数据集上应用ComBat-GAM(https://github.com/rpomponio/neuroHarmonize)。

       我们的分析主要集中在典型发展和典型衰老的参与者上,为健康对照建立大脑区域的年龄趋势。我们包括了没有神经系统或精神疾病的参与者;然而,要调和以特定神经系统或精神疾病为焦点的研究,需要适当的对照人群数据。然后,患者数据应遵循相同的调和转换,但在计算调和模型时不应使用患者。这是因为我们方法背后的基本假设是,每个队列的测量值都来自相同的值分布,尽管会因年龄、性别和颅内体积(ICV)的不同而有所差异。结构性大脑改变的患者可能违反这一假设,并且,将他们纳入调和将减弱与疾病相关的效应。因此,我们通过网络界面提供的年龄趋势可以作为基于广泛年龄范围内的大型对照人群的参考,并且假设有足够的对照样本,可以协助调和相对较小的病理研究,这在其他情况下是不可行的。

      当前研究展示了在存在非线性年龄效应的情况下,汇集异质成像数据集进行下游分析的实际能力,尤其是在大规模上。未来的努力应该集中在将这一框架应用于其他感兴趣的变量和数据集上,包括纳入患者志愿者以推导出特定于疾病的趋势,以及将当前调和程序扩展到纵向研究。

如需原文及补充材料请添加思影科技微信:1996207406318983979082获取,如对思影课程及服务感兴趣也可加此微信号咨询。另思影提供免费文献下载服务,如需要也可添加此微信号入群,原文也会在群里发布,如果我们的解读对您的研究有帮助,请给个转发支持以及右下角点击一下在看,是对思影科技的支持,感谢!

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值