白质高信号(WMH)经常在健康老年人的MRI中发现。WMH也与衰老和认知下降有关。在这里,我们比较并验证了三种WMH提取算法:FreeSurfer(T1w)、UBO Detector(T1w + FLAIR)和FSL的脑强度异常分类算法(BIANCA; T1w + FLAIR),这是使用包含认知健康老年人的纵向数据集(基线人数为231,年龄范围64-87岁)的MRI数据。作为参考,我们在T1w、3D FLAIR和二维(2D)FLAIR图像中手动分割WMH,这些图像被用于评估不同自动化算法的分割准确度。进一步地,我们评估了算法提供的WMH体积与Fazekas评分和年龄之间的关系。FreeSurfer低估了WMH体积,在Dice相似性系数(DSC = 0.434)上得分最低,但其WMH体积与Fazekas评分有很强的相关性(rs = 0.73)。BIANCA在3D FLAIR图像中达到了最高的DSC(0.602)。然而,其与Fazekas评分的关系只是中等的,特别是在2D FLAIR图像中(rs = 0.41),并且在探索个体轨迹时检测到许多异常WMH体积(2D FLAIR:约30%)。UBO Detector在两种模态的DSC中表现与BIANCA类似,并在2D FLAIR中达到了最佳DSC(0.531),而不需要特定的训练数据集。此外,它在与Fazekas评分的相关性上达到了非常高的水平(2D FLAIR:rs = 0.80)。总的来说,我们的结果强调了在选择WMH分割算法和MR模态时需谨慎考虑的重要性。本文发表在Human Brain Mapping杂志。(可添加微信号19962074063或18983979082获取原文及补充材料,另思影提供免费文献下载服务,如需要也可添加此微信号入群,另思影承接白质高信号分割与分析业务,如感兴趣也可咨询)
1 引言
按照神经影像学上报告血管变化的国际标准(STRIVE),被假定为血管起源的白质高信号(WMH)在T2加权(T2w)磁共振成像(MRI)上呈现为高信号异常,而在T1加权(T1w)序列上可能呈现为等信号或低信号,它们的直径也有所不同(Wardlaw等,2013年)。流体衰减反转恢复(FLAIR)序列通常是用于检测WMH的最敏感的结构性MRI技术(Wardlaw等,2013年)。在老年人的MR影像中,WMH是一种常见的表现(Wardlaw、Valdés Hernández和Muñoz-Maniega,2015年),并被视为脑小血管疾病(CSVD)的一种标志。CSVD是老年人中疾病和死亡的主要原因,并且与认知下降有关(Baker等,2012年)。即便在健康的老年人中,WMH也与认知、感知和运动能力的降低相关(Di Stadio等,2020年;Gunning-Dixon和Raz,2000年;Pinter等,2017年)。更广泛地来说,WMH的存在增加了全面功能丧失、中风、痴呆症和死亡的风险(Inzitari等,2009年;Debette和Markus,2010年)。因此,采用最敏感的MR序列进行精确、可靠的WMH量化显得至关重要。
在临床诊断中,Fazekas量表(Fazekas、Chawluk、Alavi、Hurtig和Zimmerman,1987年)、Scheltens量表(Scheltens等,1993年)和与年龄相关的白质变化量表(ARWMC)(Wahlund等,2001年)通常用于视觉评估WMH的严重程度和演变。然而,尽管视觉评分量表的应用相对简单,它们并未提供真实的定量数据,并且获取这些数据耗时(Mäntylä等,1997年),同时也不足以灵敏地评估WMH的纵向变化(D. M. J. van den Heuvel等,2006年),主要是因为存在明显的上限和下限效应(Mäntylä等,1997年)。与这些量表相比,体积测量更加可靠,对于检测WMH随年龄变化的纵向研究更为敏感(T. L. A. van den Heuvel等,2016年)。特别是对于那些预期WMH体积随时间增长较小的认知健康样本研究,我们因此需要快速的自动化方法来提供估算体积而非仅仅是一个评分(Frey等,2019年;Prins和Scheltens,2015年)。
手动分割WMH极其耗时并可能变得昂贵得令人望而却步,因此在考虑当前朝向大数据(即,具有大量N值和多个数据获取时间点的数据集)的趋势时,并不可行。因此,准确的自动化WMH体积量化方法非常受欢迎。到目前为止,有许多不同的WMH量化方法,大致可以分为:有监督的,即底层算法使用手动分割的“黄金标准”作为参考进行训练(Ghafoorian等,2017年;Van Nguyen、Zhou和Vemulapalli,2015年),以及无监督的,即方法不依赖于黄金标准(Bowles等,2016年;Cardoso、Sudre、Modat和Ourselin,2015年;Ye、Zikic、Glocker、Criminisi和Konukoglu,2013年)。根据所需人工干预的程度,方法还可以进一步分为自动化和半自动化(Caligiuri等,2015年)。Guerrero等人(2018年)的最新研究提供了现有方法的全面回顾。所有这些方法都面临假阳性和假阴性分割的挑战,以及不同的白质病变负荷(在MS病变中通常低于假定为血管起源的WMH)和不同的白质病变对比度(MS病变通常比假定为血管起源的WMH更亮且边界更清晰[Caligiuri等,2015年;Griffanti等,2016年])。共存的病理(例如,广泛的萎缩)进一步挑战这些方法(Heinen等,2019年)。
Caligiuri等人(2015年)比较了不同的现有算法,包括有监督/无监督和自动化/半自动化方法。他们发现,许多这些方法并不是免费提供的,是特定于研究和/或协议的,并且主要是在小样本中进行验证的。重要的是,目前仍然没有共识关于哪些算法是高质量的,应用于检测WMH(Dadar等,2017年;Frey等,2019年)。因此,相关研究的方法论非常异质,影响了这些研究的可比性。因此,我们当前工作的主要目标是评估三种免费提供的WMH提取方法的性能:FreeSurfer(Fischl,2012年)、UBO Detector(Jiang等,2018年)和大脑强度异常分类算法(BIANCA)(Griffanti等,2016年)。
FreeSurfer图像分析套件(Fischl,2012年)是一个完全自动化的工具软件,用于使用T1w图像信息分析脑结构。虽然FreeSurfer最初并非专门为WMH分割而开发,但如果在研究中没有收集FLAIR图像,它可能是一个有用的选择。尽管已经为FreeSurfer的算法提供了WMH分割的单一性能指标(Ajilore等,2014年;Olsson等,2013年;Samaille等,2012年;Smith等,2011年),但常见的准确性指标仍然缺乏。此外,FreeSurfer的WMH输出尚未使用纵向数据集进行验证,现有的验证依赖于中等至非常高甚至未报告WMH负荷的图像。
UBO Detector是一个基于群集的、完全自动化的流程,它不需要训练数据集,像BIANCA一样,依赖于k-NN算法来量化WMH(Jiang等,2018年)。开发者自己对其进行了验证,使用了两个数据集——一个横断面的和一个纵向的——都是使用二维(2D)FLAIR图像。数据集包括了患有中风、短暂性脑缺血发作(TIA)等疾病的老年参与者。研究表明,UBO Detector是提取WMH的可靠工具,并与他们的手动参考相比,发现了强烈的WMH一致性。到目前为止,尚未发布UBO Detector的进一步验证研究,但它已在三项额外研究中用于提取WMH(d'Arbeloff等,2019年;Du和Xu,2019年;Taylor等,2019年)。
BIANCA是一种半自动化、多模式、有监督的WMH检测方法,基于k最近邻(k-NN)算法(Griffanti等,2016年)。除了全局阈值设定外,BIANCA还提供了本地自适应阈值估计(LOCATE),这是一种有监督的方法,用于识别应用于估计的病变概率图的最佳本地阈值(Sundaresan等,2019年)。BIANCA在一个“主要神经退行性”队列和一个“主要血管性”队列中被验证和优化(Griffanti等,2016年),并且与两种免费可用的方法“CASCADE”(Damangir等,2012年)和“病变分割工具”(P. Schmidt等,2012年)相比表现更好。Ling、Jouvent、Cousyn、Chabriat和De Guio(2018年)基于脑常染色体显性动脉病变伴皮下梗塞和脑白质脑病(CADASIL)患者的队列横断面验证和优化了BIANCA,并得出结论,BIANCA是一种可靠的方法,用于提取这些患者的广泛WMH负荷。Sundaresan等(2019年)通过包括LOCATE(见上文)在不同WMH负荷范围广泛的队列中横断面验证BIANCA,并表明LOCATE有助于更好的分割性能,特别是在CADASIL患者中。到目前为止,使用全局阈值设定的BIANCA和使用本地阈值方法LOCATE的BIANCA尚未在纵向数据集中得到验证。在使用手动分割的参考数据对低WMH负荷的数据进行验证时,LOCATE尚未得到验证。有关验证FreeSurfer、UBO Detector和BIANCA的文章概述,请参见表S1。
在这项研究中,我们旨在提供三种自动化WMH提取算法在不同MRI输入模式(T1w、2D FLAIR + T1w和三维[3D] FLAIR + T1w)下性能的补充信息。为了估计自动WMH分割的准确性,我们使用完全手动分割的WMH作为真实WMH的代理。我们将这些手动分割的WMH称为黄金标准。
据我们所知,这是第一项使用单中心研究收集的认知健康老年人的全面纵向MRI数据,评估不同方法的WMH分割性能及MR影像模式影响的研究。
通过我们的研究,我们希望明确回答以下的问题:
1.分割准确性评估:在以下方面,哪种算法和MR影像模式提供的估计与相应的黄金标准最一致:
2.使用整个数据集的验证:不同算法提供的WMH体积估计如何与
-
-
已建立的准确性指标和
-
WMH体积。
-
经常使用的Fazekas评分和
-
时间年龄相关?
-
2.方法
2.1 受试者
纵向MRI数据取自长期健康老龄化脑数据库项目(LHAB;瑞士)——这是在苏黎世大学(Zöllig等,2011年)进行的一项持续项目。我们使用了前四次测量场合(基线、1年随访、2年随访和4年随访)的数据。基线LHAB数据集包括来自232名参与者的数据(基线时的平均年龄:M = 70.8岁,范围 = 64-87岁,女性:男性 = 114:118)。在每次测量场合,参与者都完成了一系列广泛的神经心理和心理测量认知测试,并接受了脑部成像。基线时参与研究的纳入标准是年龄≥64岁,惯用右手,流利的德语能力,迷你精神状态检查(Folstein、Folstein和McHugh,1975年)得分≥26分,没有自报的中枢神经系统神经疾病和没有MRI禁忌症。该研究得到了苏黎世州伦理委员会的批准。参与是自愿的,所有参与者都按照赫尔辛基宣言提供了书面知情同意。
对于目前的分析,我们使用了具有结构性MRI数据的参与者,基线时的样本量为N = 231(基线时的平均年龄:M = 70.8岁,范围 = 64-87岁,女性:男性 = 113:118)。在4年随访时,基线样本中仍包含结构数据的占71.9%(N = 166,平均年龄:M = 74.2岁,范围 = 68-87岁;女性:男性 = 76:90)。与此领域以往的研究一致,我们确保所包括的扫描中没有显示颅内出血、颅内占位性病变、多发性硬化(MS)病变、大型慢性、亚急性或急性梗塞,以及极端明显的视觉运动伪影。
2.2 MRI数据采集
MRI数据是在苏黎世大学医院使用飞利浦Ingenia 3T扫描仪(飞利浦医疗系统,荷兰贝斯特)和dsHead 15通道头部线圈采集的。T1w和2D FLAIR结构图像是LHAB项目标准MRI套餐的一部分,因此在大多数时间点上都可用(见表1)。T1w图像是用3D T1w涡轮场回声(TFE)序列记录的,重复时间(TR):8.18毫秒,回波时间(TE):3.799毫秒,翻转角(FA):8°,视野(FOV):160×240×240毫米³,160个矢状切片,平面内分辨率:256×256,体素大小:1.0×0.94×0.94毫米³,扫描时间:约7:30分钟。如果每个时间点有两个T1w图像可用,这些图像会被平均用于进一步使用。2D FLAIR图像参数是:TR:11,000毫秒,TE:125毫秒,反转时间(TI):2,800毫秒,FOV:180×240×159毫米³,32个横断面切片,平面内分辨率:560×560,体素大小:0.43×0.43×5.00毫米³,切片间隙:1毫米,扫描时间:约5:08分钟。3D FLAIR图像只为一个子样本记录。3D FLAIR图像参数是:TR:4,800毫秒,TE:281毫秒,TI:1,650毫秒,FOV:250×250毫米,256个横断面切片,平面内分辨率:326×256,体素大小:0.56×0.98×0.98毫米³,扫描时间:约4:33分钟。
表1 按模态(3D T1w、2D FLAIR和3D FLAIR)和时间点(基线、1年、2年和4年随访)划分的扫描次数(N)
表1提供了按数据获取时间点(基线、1年随访、2年随访和4年随访)和影像模态(T1w、2D FLAIR和3D FLAIR)划分的可用MRI扫描数量的概览。有关数据结构和研究设计的更全面概览,请参见图S1。
2.3 用于不同算法的数据集子集
在这项工作中,我们使用了LHAB数据集的三个子集来验证算法。这些子集在MR影像模式和扫描数量上有所不同。对于FreeSurfer,我们使用了T1w图像。UBO Detector和BIANCA主要从FLAIR图像中提取与WMH相关的强度特征,因为FLAIR图像提供了最佳的WMH对比度。此外,这两种算法也使用T1w图像。在UBO Detector中,T1w图像是必需的(用于分割白质、灰质和脑脊液组织)。BIANCA允许额外输入T1w图像,并且已经显示,额外包含T1w图像可以提高分割性能(Griffanti等,2016年)。表2提供了不同算法使用的子集概览。
表2 数据集子集的名称(FreeSurfer T1w、UBO 2D、BIANCA 2D、UBO 3D和BIANCA 3D)、应用的算法、不同算法的输入模式/模式,以及每个子集的扫描数量(N)
2.4 准确性指标
我们使用了多个指标来量化不同算法的分割性能。这些指标提供了关于重叠程度、相似程度和体积一致性的信息,当比较(a)由多个操作员手动分割的黄金标准和(b)算法输出与黄金标准时。这些指标的公式列在表3中。
表3。以下指标被用于确定操作员之间(操作员间)和算法结果与黄金标准之间(验证)的一致性
2.4.1 空间重叠指标
Dice相似性系数(DSC)(Dice,1945)提供了关于两个分割间重叠一致性的信息,它可能是评估WMH分割方法准确性最为确立的指标。它被定义为两个分割中选定体素的并集的两倍除以每个评估者或算法选定体素的总和。然而,由于DSC依赖于病变负荷(病变负荷越高,DSC越高),如果在具有不同病变负荷的不同扫描集上评估时,评估操作员或自动分割方法的相互比较变得困难(Wack等,2012年)。
扩展DSC,轮廓误差率(OER)和检测误差率(DER)不受病变负担影响(Wack等,2012年)。在这些指标中,假阳性(FP)和假阴性(FN)体素的总和根据是否发生交集而分开。然后将总和除以两个操作员的平均总面积(MTA)以获得一个比率,其中DER作为没有交集的误差指标,OER作为有交集的误差指标。OER和DER也可以用于黄金标准和算法之间的比较(见表3)。我们计算并报告了敏感性或真阳性比率(TPR)。特异性(也称为召回率)没有声明,因为它等于1减去假阳性比率(FPR),我们报告了这一点。
2.4.2 空间距离度量
基于距离的方法是验证图像分割的另一种手段。Hausdorff距离是一种形状比较方法,用于评估度量空间中的子集之间的距离(Beauchemin、Thomson和Edwards,1998年;Huttenlocher、Klanderman和Rucklidge,1993年)。它代表了一个集合中的点到另一个集合中最近点的最大距离(Shonkwiler,1991年)。为了避免由于分割的噪声所引起的问题,我们使用了修正的Hausdorff距离,针对95百分位数(H95)(Huttenlocher等,1993年)。
2.4.3 体积一致性度量
我们还计算了类间相关系数(ICC)。ICC不仅反映相关度,还反映了两次测量之间基于均方差的一致性(Koo和Li,2016年)。与黄金标准进行比较时,我们使用了“单一评估”[ICC(3,1)],而在没有黄金标准的比较中,我们使用了包含汇总平均的方程式[ICC(3,k)](Koo和Li,2016年;McGraw和Wong,1996年;Shrout和Fleiss,1979年)。
2.5 手动WMH分割
从包含四个数据获取时间点的整个纵向数据集中,我们选择了在给定时间点拥有T1w、2D FLAIR和3D FLAIR扫描的受试者。从这些人中,我们随机选择了16名受试者进行手动分割,同时确保所选受试者的图像覆盖了不同范围的WMH负荷。为此,我们使用了个体的Fazekas评分。手动分割的子样本平均具有中等Fazekas评分。尽管Griffanti等人(2016年)推荐使用只有高WMH负荷的训练数据集,但Ling等人(2018年)的研究中,使用混合WMH负荷的训练数据集比只有高WMH负荷的训练数据集取得了更好的结果。因此,也因为混合范围的WMH负荷更适合代表我们的数据集,我们选择了我们的抽样策略(有关数据结构和研究设计,请参见图S1)。
总共有48张MR图像(16名受试者×3种影像模式)被手动分割为WMH,结果产生了48个二进制掩码,值为0表示无WMH,值为1表示有WMH。我们将这些WMH分割称为黄金标准,因为它们代表了真实WMH负荷的强烈代理。
2.5.1 FLAIR图像的分割
三位操作员(O1、O2和O3)在MacBook Pro 13英寸上,使用Retina显示屏,屏幕分辨率为2560×1600像素,每英寸227像素,并以全亮度强度,完全手动分割了16张3D FLAIR图像和10张2D FLAIR图像,分别在三个平面(矢状、冠状和轴向)上进行,以使用FSLeyes(McCarthy,2018年)获得可比数据。这些分割是独立进行的,每张分割图像产生了三个不同的掩码。由于之前分割操作员间的可靠性非常好,只有一个操作员(O2)分割了剩余的六张2D FLAIR图像,以达到所有模式相同数量(n = 16)的黄金标准。为了确保高质量的分割,这六个WMH掩码由O1和O3进行同行评审。任何差异都由所有操作员和一位作者(S.K.)讨论,S.K.是一位拥有超过30年诊断脑部MR图像经验的神经放射学教授。为了评估这三位操作员间掩码的一致性,在FSLeyes中以叠加的方式显示了同一受试者的三个手动分割WMH掩码(三位操作员的掩码)"(体素值1.0:所有三个操作员将体素分类为WMH;体素值0.666:两个操作员将体素分类为WMH;0.333:一个操作员将体素分类为WMH(见图1)。然后在所有操作员(O1、O2和O3)在场的情况下,通过共识逐体素修订每个掩码,转换回二值掩码,以作为黄金标准。操作员间的不一致性主要涉及WMH边界处的体素。得到的掩码被展示给S.K.,并在出现错误的情况下进行纠正。
图1 三个掩码叠加层的一部分(每位操作员一个)在3D FLAIR图像的轴向平面上被称为“平均掩码”,每位操作员的不同值以不同颜色显示(浅绿色:所有三位操作员将体素分类为WMH(体素值1.0);深绿色:两位操作员将体素分类为WMH(体素值0.666);橙色:一位操作员将体素分类为WMH(体素值0.333)
2.5.2 T1w图像的分割
16张T1w MR图像的完全手动分割由两位操作员(O1和O2)分摊。由于T1w图像提供的WMH对比度最低,因此在不确定情况下,例如DWMH的对比度非常差或WMH被脑梗死穿透时,我们使用了同一受试者和时间点的未分割FLAIR图像。尽管如此,我们希望尽可能少受FLAIR图像的影响,因此尽可能少地咨询FLAIR图像。此外,在歧义情况下,我们会咨询S.K.,并且O1在分割结束时与O3逐体素讨论所有图像。
2.5.3 黄金标准的验证
三位操作员(O1、O2和O3)对3D(n = 16)和2D FLAIR图像(n = 10受试者)的平均DSC分别为0.73和0.67。平均DSC为0.7(Anbeek、Vincken、van Osch、Bisschops和van der Grond,2004年;Caligiuri等,2015年)被认为是良好的分割。正如预期的那样,由于表面积与体积比较低,WMH负荷较低的图像的DSC低于WMH负荷较高的图像(Wack等,2012年)。在WMH负荷较低的图像中,DSC高于0.5仍被认为是非常好的一致性(Dadar等,2017年)。我们在两种模式(3D和2D FLAIR图像)中的平均DSC结果均高于0.7(中等WMH负荷),以及高于0.6(低WMH负荷),可被视为卓越的一致性。3D和2D FLAIR图像分割的体积一致性的可靠性,如ICC所示,是极好的(Cicchetti,1994年)(3D FLAIR:平均ICC = 0.964;2D FLAIR:平均ICC = 0.822)。关于更多指标的详细结果,以及分割的WMH体积,可以在表S2中找到。为了准备UBO Detector和BIANCA的优化阶段,以及BIANCA的强制性训练数据集,之前提到的六张2D FLAIR图像进行了手动分割。图2显示(左侧)基于16名受试者的手动分割产生的平均WMH体积,按模态(T1w、3D FLAIR和2D FLAIR)划分。使用Friedman检验和Dunn Bonferroni事后检验(Holm校正)未发现三种不同手动分割的黄金标准之间存在显著的平均WMH体积差异。皮尔逊积矩相关系数显示了所有黄金标准之间几乎完美的(Dancey和Reidy,2017年)线性关联(平均r = .97,p < .001;见图5,不仅显示了黄金标准之间的相关性,还显示了每种输入模式下所有三种算法之间的相关性)。
图2 图中左侧显示了手动分割的黄金标准的平均WMH体积(以立方厘米为单位),以及平均标准误差(SEM),右侧显示了自动化算法估算的相应平均WMH体积。**p < .01;***p < .001
2.6 Fazekas量表
Fazekas量表是一种广泛使用的视觉评分量表,提供有关WMH病变位置(脑室周围WMH(PVWMH)与深部WMH(DWMH))和严重程度的信息。它的评分范围从0到3,对于两个位置都是如此,因此可能的最低分数为0,最高分数为总WMH的6分。
首先,三位操作员(O1、O2和O3)由神经放射学家S.K.进行了为期数周的特别培训,学习使用Fazekas量表评估WMH。S.K.对参与者的人口统计学和神经心理数据一无所知。随后对800张图像进行了使用Fazekas量表的视觉评分。在操作员给出最终评分之前,他们比较了FLAIR图像中的Fazekas评分是否与T1w图像中的评分相同。我们在任何受试者的图像模式之间都没有发现Fazekas评分的差异。这些评分由所有三位操作员独立进行,通过以下描述的统计指标对进一步的程序进行了验证。采用Kendall一致性系数(Moslem、Ghorbanzadeh、Blaschke和Duleba,2019年)确定了四个时间点所有操作员间的平均一致性,分别对总WMH、DWMH和PVWMH的每个时间点进行计算。根据Moslem等人(2019年)的定义,发现了总WMH(W = 0.864,p < .001)、PVWMH(W = 0.828,p < .001)和DWMH(W = 0.842,p < .001)的强一致性。此外,通过使用加权Cohen's kappa(Cohen,1968年),对四个时间点的三位操作员间总WMH、PVWMH(脑室周围WMH)和DWMH(深部WHM)的平均可靠性进行了评估。根据Landis和Koch(1977年)的定义,发现了从相当到几乎完美的可靠性(见表S3)。对每位参与者的每个时间点的总WMH、PVWMH和DWMH计算了中位数评分。所有三位操作员的中位Fazekas评分为:总WMH = 3;PVWMH = 2;DWMH = 1。有关更多描述性细节,请参见表S4。
2.7 自动WMH分割
为了从每种算法中获得最佳性能,我们选择了UBO Detector和BIANCA的原始作者认为最佳的设置。因此,我们的目的不是考察可比较的设置(例如,对于PVWMH(脑室周围WMH)),而是在最佳条件下比较算法的结果。
2.7.1 FreeSurfer
FreeSurfer图像分析套件(Fischl,2012年)使用结构分割来识别可能发生WMH的区域,同时排除不可能发生WMH的区域(皮层和皮下灰质结构)。该算法根据概率本地和强度相关信息为每个体素分配标签,这些信息是从内置的训练数据集中自动估算的,该数据集包括41张手动分割的图像(surfer.nmr.mgh.harvard.edu/fswiki/AtlasSubjects;Fischl等,2002年)。该算法区分了白质(WMH)和灰质(非WMH)中的低信号强度。T1w图像(子集1;T1w图像)使用FreeSurfer v6.0.1进行了处理,该版本实现在FreeSurfer BIDS-App中(Gorgolewski等,2017年)。
2.7.2 UBO Detector
UBO Detector应用于子集2(2D FLAIR + T1w)和子集3(3D FLAIR + T1w)。UBO Detector通过应用一个在10名受试者上手动分割2D FLAIR图像的训练模型来计算WMH的概率(内置训练数据集)。用户可定义的概率阈值通过分割子区域(包括PVWMH、DWMH、叶状和动脉区域)生成WMH图。根据Jiang等人(2018年)的建议,我们使用了距离脑室边界12毫米的阈值来定义PVWMH的边界。在五张图像中T1w图像的分割失败,因此这些受试者被排除在后续程序之外。数据的视觉检查发现了一个分割错误(眼球被标记为WMH),因此,这个时间点被排除在进一步分析之外,总受试者数为N = 756名。为了确定哪些设置最适合我们的子集,我们使用留一法交叉验证方法,评估了Jiang等人(2018年)提出的四种不同设置的性能。由于我们为2D和3D FLAIR图像手动分割了WMH,我们分别检查了UBO Detector在每种模式(2D FLAIR + T1w,3D FLAIR + T1w)的性能。为此,我们分别计算了不同设置的准确性指标,并检查哪些调整取得了最佳值(更多结果见表S5)。对于2D FLAIR图像,UBO Detector在阈值为0.9和k = 3的NN下工作最准确。对于3D FLAIR图像,最佳性能是在阈值为0.7和k = 5的NN下实现的。对于后续计算,我们使用了这些优化设置。
2.7.3 大脑强度异常分类算法
BIANCA应用于子集2(2D FLAIR + T1w)和子集3(3D FLAIR + T1w)。对于BIANCA来说,FLAIR训练数据集是必需的。作为输出,BIANCA生成了总WMH、PVWMH和DWMH的WMH概率图。从3D和2D FLAIR图像中派生的16个手动分割的黄金标准被用于训练数据集,并与T1w图像结合使用。作为第一步,我们比较了BIANCA的两个阈值选项——最佳全局阈值(0.99)与LOCATE,以调查哪个选项为我们的子集提供了更好的分割质量。为此,我们使用了留一法交叉验证方法,以及每种模式的16个黄金标准。我们使用Wilcoxon秩和检验比较了输出的WMH与DSC、DER、OER、H95、FP、TP、FPR、敏感性和ICC,以及立方厘米单位的WMH体积。因为LOCATE的表现并不比0.99的最佳全局阈值设定更好,所以我们使用后者进行了进一步的分析。有关更多信息,以及详细的比较分析,请参阅补充分析:阈值方法比较:BIANCA与LOCATE。
为了验证16个黄金标准对于训练数据集是否足够,我们使用了BIANCA的评估脚本。BIANCA在两种模式下都显示了良好的结果(见表S7)。为了定义PVWMH,我们采用了距离脑室10毫米的距离规则(DeCarli等人,2005年),这也是Griffanti等人(2016年)建议的。为了减少灰质中假阳性体素,并同时只定位白质中的WMH,我们应用了一个WM掩码。对于BIANCA的选项,我们选择了Griffanti等人(2016年)指出的在DSC和群体级假阳性比率方面最佳的选项:MRI模态 = FLAIR + T1w,空间权重 = “1”,补丁 = “无补丁”,训练点位置 = “noborder”,训练点数量 = WMH的训练点数量 = 2000,非WMH的训练点数量 = 10000。有关描述和选项的更多详细信息,请参阅Griffanti等人(2016年)。
在进行BIANCA分割程序之前应用的预处理步骤是通过一个nipype流程(v1.4.2;Gorgolewski等,2011年)执行的,具体如下:基于由fMRIprep(v1.0.5;Esteban等,2019年)的解剖工作流程创建的特定于受试者的模板,该模板使用了所有可用会话(即,测量时间点)的T1w图像,创建了一个WM掩码和一个脑室掩码(FSL的make_bianca_mask命令)。脑室掩码随后用作创建距离图(distancemap命令)的基础,该距离图提供了给定体素距离脑室的距离信息。距离图经过阈值处理以创建脑室周围和深部WM掩码(截断值 = 10毫米)。对于每个会话,给定时间点的两张T1w图像经过偏差校正(ANTs v2.1.0;Tustison等,2010年),转换到模板空间,并平均。被定义为基础图像(BIANCA输入和输出图像的参考空间)的FLAIR图像进行了偏差校正,模板空间图像(T1w图像和掩码)使用FLIRT(Jenkinson和Smith,2001年)转换到基础图像空间。我们实施了平均T1w图像的模板方法,以确保处理的稳健性,并考虑到我们数据的纵向结构。以前的研究表明,与UBO Detector相比,当图像包含伪影时,BIANCA的DSC值显著较低(Vanderbecq等人(2020年)。此外,每个个体(在模板空间)仅提取一次掩码可以通过减少可能影响单个时间点的随机伪影的影响,增加掩码的有效性。尽管已知结构变化是发生的,但它们在健康老化大脑中的小规模应不会显著偏置掩码创建(Reuter、Schmansky、Rosas和Fischl,2012年;Tustison等,2017年)。由于结果较差,没有采用BIANCA原始作者使用的纯横断面预处理流程(见补充分析:BIANCA在默认的横断面预处理下的准确性)。
为了选择BIANCA概率输出的最佳阈值,我们首先使用留一法交叉验证方法分别计算了2D和3D FLAIR黄金标准图像(+T1w图像)的不同验证指标。应用了0.90、0.95和0.99的全局阈值,其中0.99的阈值对于两种FLAIR序列都被证明是最合适的。更详细的概览请参见表S6。
2.8 统计分析
根据在引言末尾概述的研究问题,我们将分析分为两部分。在第一部分中,我们通过将不同算法提供的WMH体积估计与相应的黄金标准进行比较来评估估计的WMH的准确性。此外,我们比较了算法和黄金标准的WMH体积之间以及算法和黄金标准之间的WMH体积。在第二部分中,我们检查了估计的WMH体积与Fazekas评分之间的相关性,以及估计的WMH体积与时间年龄之间的关联。
2.8.1 第1部分分析
首先,我们通过将自动提取的WMH分割与相应的黄金标准分割分别用于不同算法进行比较,计算了自动提取的WMH分割的准确性,使用了上述准确性指标:DSC、DER、OER、H95、FPR、敏感性和ICC(结果见表4)。这些准确性指标(ICC除外)使用Friedman检验进行比较,配合Dunn–Bonferroni事后检验(Holm校正)。ICC比较被解释为根据Cicchetti(1994)的可靠性度量。对于显著的事后结果,计算了Cohen的d(Cohen,1988)效应大小。
其次,我们比较了自动估计的WMH体积和手动分割的黄金标准之间以及彼此之间的WMH体积。结果总结在图2中。对于统计比较,我们由于非正态分布使用了Friedman检验,配合Dunn–Bonferroni事后检验(Holm校正)(Friedman,1937年)。 表4。使用三种不同模式(T1w、3D FLAIR和2D FLAIR)的WMH的准确性指标摘要
注:DER,检测误差率;DSC,Dice相似性系数;FPR,假阳性比率;H95,用于95百分位数的Hausdorff距离,敏感性;ICC,类间相关系数;OER,轮廓误差率。灰色阴影单元格表示性能显著较差。
a 通过Friedman检验进行比较。 b 只能在相同模式之间进行直接比较。
2.8.2 第2部分分析
1.为了检验主观Fazekas评分与估计的WMH体积之间的对应程度有多强,我们计算了这些度量之间的Spearman's rho(表5)。我们检查了所有时间点的这些相关性,但也分别检查了每个时间点的相关性,因为从一个时间点到另一个时间点样本量显著减少。对于UBO Detector和BIANCA,我们除了分析总WMH体积外,还分析了PVWMH和DWMH体积。由于Fazekas评分是顺序量表,所以使用了Spearman's rho。
2.为了估计年龄对总WMH体积的影响,我们应用了多次测量嵌套在个体内的线性混合模型(LMMs),以满足所使用数据集的纵向特性。总WMH体积是因变量,入组年龄是自变量(见表6)。我们使用了不同分割方法提供的估计总WMH体积,并计算了五个LMMs。WMH体积和年龄进行了对数转换和z标准化。相对效应大小的计算遵循了Brysbaert和Stevens(2018年)以及Westfall、Kenny和Judd(2014年)的方法。这些分析是在R(R Core Team,2020年)中进行的,使用lme4包(Bates、Mächler、Bolker和Walker,2015年)。由于我们对线性关联感兴趣,我们报告了不同算法的基线年龄的固定效应
。此外,LMMs允许比较误差方差。这个度量取决于从个体估计的轨迹的偏差,其中至少一部分可以被视为算法的测量误差。
表5。Fazekas评分与WMH体积(Fazekas评分与不同WMH体积度量之间的Spearman's rho)
注:显示了整个样本(所有)的相关性(rs)和四个时间点(括号内显示最小和最大相关性)的中位数(中位)相关性。rs > 0.6的相关性被灰色阴影突出显示。Spearman's rho(rs)= 弱:0.1-0.3,中等:>0.3-0.6,强:>0.6-0.9,完美:>0.9(Dancey & Reidy,2017)。
缩写:DWMH,深部WMH;PVWMH,脑室周围WMH。
表6 年龄对WMH体积主要效应的总结
注:***p < .001。 缩写:95% CI,95%置信区间。
a.
是(标准化β)固定效应(斜率)。WMH体积进行了对数转换和z标准化。时间年龄进行了z标准化。
b.Cohen的d:小效应大小:≥0.2–,中等效应大小:0.5,大效应大小:0.8(Cohen,2013年)。
最后,我们根据我们对BIANCA输出中连续时间点WMH体积之间的强烈差异的观察进行了事后计算,我们将其称为“后续分析”。为了进一步研究WMH体积在受试者内的变异性,我们确定了“两个测量点之间的异常间隔”百分比和数量,以及“纵向数据中有异常的受试者”基于WMH体积增加(平均值 + 1标准差)和减少(平均值 - 1标准差)的平均百分比,分别为可能的时间间隔(1年、2年、3年和4年间隔)计算“容忍范围”并排除异常数据点。异常数据点进一步按低、中、高WMH负荷(基于Fazekas量表)进行分类,以识别特定模式。如果“两个测量点之间的异常间隔”数量超过了“纵向数据中有异常的受试者”的数量,这表明在单个人内出现了峰值甚至多个异常数据点——这将是随时间呈现锯齿形态的迹象。更详细的描述请参见第3.1节。
对于所有统计分析,应用了R包。在可能的情况下,差异也以Cohen的d(Cohen,2013年)表示。d值为0.2被认为是小效应,d值为0.5被认为是中等效应,d值为0.8被认为是强效应(Cohen,2013年)。Spearman的rho根据Dancey和Reidy(2017年)分类(rs > 0.1-0.3为弱,rs > 0.3-0.6为中等,rs > 0.6-0.9为强,rs > 1为完美)。对于Friedman检验的事后检验,我们进行了调整的Bonferroni配对t检验。基于ICC的可靠性估计根据Cicchetti(1994年)分类(ICC = 公平:>0.4-0.6,良好:>0.6-0.75,卓越:>0.75)。
2.9 计算机设备
所有WMH提取工作是在一台Supermicro X8QB6工作站上进行的,配备4× Intel Xeon E57-4860 CPU(4×10核,2.27 GHz)和256 GB RAM。计算主机是一个KVM虚拟化的客户端实例,使用Ubuntu 18.04.4 LTS,配备32× Intel Xeon E7-4860 CPU(2.27 GHz)和92 GB RAM。
3 结果
1.WMH分割方法的准确性:表4总结了基于算法输出与相应黄金标准比较的WMH分割算法的准确性。
总体而言,准确性至少是相当好的。使用Friedman检验比较准确性指标显示,与其他算法相比,FreeSurfer在重要的准确性指标(如DSC、敏感性和OER)方面表现不佳。关于ICC(范围:0.45–0.93),根据Cicchetti(1994年)的可靠性评估,FreeSurfer显示出一般的可靠性,BIANCA 3D显示出良好的可靠性,UBO Detector 2D和3D FLAIR以及BIANCA 2D FLAIR显示出卓越的可靠性。总的来说,FreeSurfer在分割准确性方面表现最弱,而BIANCA 3D FLAIR是最准确的。UBO Detector和BIANCA之间的差异通常非常小,特别是在应用于2D FLAIR图像时,很少达到显著性。
黄金金标准与各个算法输出的DSC,分为低、中和高WMH负荷,在表S9中显示。
2.黄金标准WMH体积与自动估计WMH体积之间的关系:图2展示了不同黄金标准的WMH体积和同一脑部的自动估计WMH体积。这些WMH体积经过Friedman检验,显示出显著结果[χ2(7) = 56.375, p < .001, n = 16]。成对比较显示金标准之间没有显著差异。将自动估计的WMH体积与其相应的金标准WMH体积进行比较显示,金标准T1w与FreeSurfer估计的体积之间存在显著差异(p < .001)。算法输出之间的比较显示,与BIANCA 2D和3D(p = .01)以及UBO 2D(p = .01)提供的估计相比,FreeSurfer的WMH体积估计显著较低。所有其他成对比较(例如,2D FLAIR金标准与UBO 2D、2D FLAIR金标准与BIANCA 2D等)没有显示出显著差异。
3. 主观Fazekas评分与估计WMH体积之间的关系:表5总结了估计WMH体积与Fazekas评分之间的关系,以Spearman的rho (rs) 表示。对于整个样本中的13个相关性中有7个是强相关性(>0.6)。这个样本的其余相关性是中等强度的。考虑到四个时间点的中位数相关性显示了非常相似的结果。表5还展示了时间点之间相关性的范围。总WMH体积和Fazekas评分的意大利面图在图3a中展示。
4. 估计WMH体积与年龄及其纵向时间进程的关系:表6总结了LMM回归分析的结果,其中WMH体积是因变量,时间年龄是自变量。从这个表中可以看出,时间年龄与所有总WMH体积度量都有中等程度的关联。这种关联的相应效应大小范围在bβ 1⁄4 0:293(BIANCA 2D)和bβ 1⁄4 0:455(FreeSurfer)之间。总WMH体积和时间年龄的意大利面图在图3b中展示。
图3 使用子集FreeSurfer T1w、UBO 2D和BIANCA 2D验证三种算法。根据Fazekas评分的总WMH体积(对数转换)的散点图(a),以及总WMH体积(cm³)和时间年龄(岁)的意大利面图(b)。
3.1 事后异常分析
上述结果表明BIANCA显示出增加的变异性。对这种变异性进行仔细检查发现,WMH分割掩码中包含错误的体素,特别是在以下区域:半卵圆中心、眶额皮质(眶回、直回、壳核上方)和脑室下方的枕叶。尽管最近的研究表明一些WMH变异性(Shi和Wardlaw,2016年),我们假设这些巨大的峰值是由异常值驱动的。由于我们对健康老年人WMH体积变化的了解不足(Shi和Wardlaw,2016年),且发现不一致(Ramirez、McNeely、Berezuk、Gao和Black,2016年),我们根据我们样本中平均WMH体积变化来识别WMH体积增加和减少的异常值。有关我们方法的详细描述,请参见补充资料:“事后异常分析的详细描述”。
BIANCA 2D和3D明显比其他算法显示出更多的异常间隔(BIANCA 2D:n = 161异常间隔,30.32%;BIANCA 3D:n = 8,16.67%),见表7。此外,BIANCA 2D和3D是唯一一种算法,在受试者轨迹中显示出比人数更多的异常值,这反映了其中的锯齿形态。有关WMH体积变化百分比的更多结果,请参见表S10。异常值的数量与病变负荷之间没有明显关联;见表S11。
表7。按子集和算法(BIANCA 2D、BIANCA 3D、UBO 2D、UBO 3D和FreeSurfer T1w)显示输出的分割扫描数量(N)、具有纵向数据的受试者数量(n)(至少两个时间点)、纵向数据中具有异常的受试者数量及百分比(括号内)、两个测量点之间的间隔数量,以及两个测量点之间异常间隔的数量及百分比(括号内)
a 关于“两个测量点之间的间隔”的解释:如果一个受试者有三个时间点(基线、1年随访和4年随访),这将导致两个存在的间隔。
b 包含了分割错误(分割眼球)的数据点。
4 讨论
在这项研究中,我们评估了三种免费提供的自动WMH分割算法:FreeSurfer、UBO Detector和BIANCA的性能。为此,我们将这些算法应用于一个大型纵向数据集,包括认知健康、年龄较大、WMH负荷较低的成年人的T1w、2D FLAIR和3D FLAIR图像。我们发现所有算法都有各自的优势和局限性。FreeSurfer在分割准确性(即DSC)方面表现出明显的不足,并明显低估了WMH体积。因此,我们认为它不能被视为手动分割WMH的有效替代品。与FreeSurfer相比,BIANCA和UBO Detector显示出更高的分割准确性。当使用3D FLAIR + T1w图像作为输入时,BIANCA在准确性指标DER和H95方面明显优于UBO Detector。然而,对于BIANCA,我们在WMH体积估计的个体轨迹中发现了大量的异常值。UBO Detector作为一种完全自动化的算法,无需训练数据集,在我们的研究中在处理时间和分割性能方面显示了最佳的成本/效益比。尽管在分割准确性方面仍有优化空间,但它通过与手动分割的WMH在两种FLAIR模式下的出色体积一致性(如ICC所反映)以及与Fazekas评分的高相关性,表现出了自身的卓越性。此外,它证明了是随时间稳健估计WMH体积的工具。
4.1 算法评估
4.1.1 FreeSurfer
FreeSurfer提供的总WMH体积与Fazekas评分显示出强相关性,与年龄显示出中等相关性。FreeSurfer没有显示出受试者内WMH体积估计的异常值。最大的限制是与相应的T1w黄金标准相比,WMH体积的根本性低估,这影响了其输出的有效性。这种低估可以归因于WMH在T1w序列中通常呈现为等强度,因此无法检测(Wardlaw等,2013年)。此外,与PVWMH相比,DWMH的对比度较低,这可能是由于DWMH与脑室的距离较远导致水分含量较低,这可能也导致了WMH体积的低估。FreeSurfer常常遗漏DWMH,这一发现也被Olsson等(2013年)报告。此外,我们的分析显示,FreeSurfer对WMH体积的低估在高WMH负荷图像中更为明显(见图4,面板c的Bland–Altmann图)。Olsson等人(2013年)在比较半手动分割的WMH(2D FLAIR)和FreeSurfer(T1w)输出时,也展示了相同的偏差。在高WMH负荷受试者中低估的一个原因可能是FreeSurfer将WMH分割为灰质(例如,双侧尾状核;Dadar、Potvin、Camicioli和Duchesne,2021年),这也可以解释FreeSurfer低假阳性比率的原因。FreeSurfer在我们研究中的空间重叠性能与Samaille等(2012年)在轻度认知障碍和CADASIL患者队列中的验证研究结果相当。尽管其他研究报告了FreeSurfer输出与手动分割之间更高的体积一致性(Ajilore等,2014年;Smith等,2011年),但T1w与两种FLAIR模式之间的WMH体积差异与STRIVE一致,该研究指出FLAIR图像对WMH的敏感性更高,因此被认为比T1w图像更适合WMH检测(Dadar等,2018年;Wardlaw等,2013年)。然而,据我们所知,大多数以前的研究没有指明他们是使用完全手动分割的黄金标准还是由半自动方法生成的黄金标准。此外,这些研究样本量小,关于常用准确性指标(如DSC、DER、OER等)的信息很少,FreeSurfer的WMH算法尚未应用于纵向数据。而且,以前的研究没有将FreeSurfer的WMH体积与T1w结构图像上的手动分割或如Fazekas量表这样的视觉评分量表进行比较。在我们的研究中,FreeSurfer的WMH体积与Fazekas评分强相关,并在不同时间点显示出可靠的WMH体积估计。然而,由于在准确性指标(DSC、OER和ICC)中的弱表现,特别是由于其巨大的WMH体积低估,FreeSurfer不能被视为在该数据集上手动WMH分割的有效替代品。尽管如此,由于与Fazekas量表的有效和可靠结果,只要不将其值解释为绝对值,FreeSurfer适用于临床实践。
图4 不同算法的WMH体积的修改版Bland–Altman(Bland和Altman,1986)图(金标准总WMH体积减去算法总WMH体积)。
x轴包含金标准的总WMH体积(以cm³为单位),y轴包含总WMH体积的绝对差异(以cm³为单位):S(x, y) = [金标准WMH体积(S1),金标准WMH体积 - 算法WMH体积(S2);(S1,S1 - S2)]
4.1.2 UBO Detector
UBO Detector使用2D FLAIR + T1w和3D FLAIR + T1w输入估计的总WMH体积与Fazekas评分强相关,并显示出与年龄的显著关系。两种FLAIR输入模式的PVWMH(脑室周围WMH)和DWMH(深部WMH)体积分别与Fazekas评分显示出强和中等相关性。这与UBO Detector开发者的文章(Jiang等,2018年)一致,该文章报告了UBO Detector派生的PVWMH和DWMH体积与Fazekas评分之间的显著关系。他们的体积一致性结果——用ICC计算——与我们的类似,尤其是对于UBO 2D,但我们无法复制他们在敏感性和重叠测量(DSC、DER和OER)中获得的高值。我们的DSC和ICC值与Vanderbecq等人(2020年)的最新横断面研究类似。开发者研究和我们的结果之间的差异可能是因为UBO Detector的内置训练数据集基于2D FLAIR图像,这可能导致根据图像输入模式(2D与3D FLAIR)的WMH分割性能差异。据我们所知,我们的研究是第一个使用3D FLAIR图像横断面和纵向验证UBO Detector的研究。事实上,我们的分析表明,UBO Detector估计的WMH体积取决于FLAIR输入的模式。使用UBO 2D提取的体积倾向于与相同模式的金标准WMH体积更为相似,而使用UBO 3D提取的体积倾向于低估相应金标准的WMH体积(见图2,以及图4中的Bland–Altmann图,面板a和b)。由于几个原因,我们的研究中没有使用UBO Detector的纵向流程。首先,UBO Detector要求所有受试者的扫描会话数量相等,这将导致我们样本量的显著减少。其次,它将所有扫描会话配准到第一个时间点,这种方法已被证明会导致偏见的配准(Reuter等,2012年)。最后,比较这两种流程,Jiang等人(2018年)没有发现关于提取的WMH体积有显著差异。到目前为止,我们还没有发现任何其他研究使用不同MR模式的纵向数据集验证UBO Detector或将其与其他WMH提取方法进行比较。
4.1.3 BIANCA
为了与原始BIANCA研究(Griffanti等,2016年)中使用的准确性指标进行直接比较,我们额外运行了BIANCA的评估脚本(表S7)。我们对不同准确性指标的整体结果更符合他们的血管性队列而不是他们的神经退行性队列。对于估计的WMH体积与我们手动分割的WMH体积之间的相关性,我们得到了与BIANCA 2D相当类似的结果。然而,无论是对于BIANCA 2D还是BIANCA 3D,我们都无法复制他们在两个队列中获得的高ICC或WMH体积与Fazekas评分之间的高关联。BIANCA 2D与Fazekas量表仅显示出中等相关性——尽管我们使用了定制的训练数据集。关于年龄和WMH体积,我们获得的小关联与Griffanti等人(2016年)在他们的神经退行性队列中报告的类似。我们怀疑这可能是由于我们的BIANCA输出中的异常分割造成的。虽然在较小的横断面分析中没有检测到异常WMH分割的影响,但由于受试者内轨迹中WMH体积的巨大波动,这种影响被揭示了出来。当UBO Detector的开发者将他们的算法与BIANCA进行比较时,他们注意到BIANCA倾向于在“乳白色”区域高估WMH,而BIANCA检测WMH的敏感性高于UBO Detector,这与我们的发现一致。
BIANCA具有LOCATE功能,这是一种确定病变概率图中不同区域的空间自适应阈值的方法。Sundaresan等人(2019年)表明,当BIANCA算法使用特定数据集的图像进行训练,或者当训练数据集是用相同序列和相同扫描仪获取时,LOCATE是有益的。对于健康对照组,他们使用LOCATE与全局阈值法相比获得了类似的视觉输出。然而,由于他们的研究中没有可用的健康对照组的手动分割黄金标准,因此缺乏手动分割WMH与LOCATE的WMH之间的定量比较。在我们的分析中,与BIANCA的全局阈值法相比,LOCATE在处理WMH负荷低的图像时表现显著更差(见补充分析)。LOCATE无疑有更多的真阳性,导致显著更高的敏感性,但这以三倍更高的假阳性率为代价(见表S12)。因此,所有其他指标(DSC、OER、DER、H95和FPR)在我们的数据集中显示出的LOCATE比BIANCA的全局阈值法更差。此外,由于LOCATE中大量的假阳性,LOCATE提供的WMH体积与黄金标准的WMH体积显著偏离。Ling等人(2018年)在CADASIL患者队列中使用不同的输入模式(单独FLAIR或FLAIR + T1w)验证了BIANCA,使用了10名受试者每种模式的半手动生成的黄金标准。在他们的数据集中,包含极高的WMH负荷,他们获得了与我们结果相比更高的2D和3D图像的DSC指标,而体积一致性与我们使用全局阈值法非常相似。在Vanderbecq等人(2020年)的研究中,使用他们的“临床常规数据集”(被转介进行认知障碍评估的患者)以3D FLAIR + T1w图像输入确定的ICC与我们使用2D FLAIR + T1w输入的相当,而使用他们的“研究数据集”(ADNI数据集;主要包括阿尔茨海默病和健忘型轻度认知障碍患者)以2D和3D FLAIR + T1w图像合并数据集作为输入确定的ICC与我们的相比较低。Ling等人(2018年)发现,BIANCA倾向于在WMH负荷低的受试者中高估WMH体积,在WMH负荷高的受试者中低估体积。
根据他们的说法,在一个WMH暴露程度低的健康老年人群体中,这种偏见不太可能被识别。在BIANCA 2D和3D中,我们没有检测到系统性偏见,但在2D FLAIR图像中WMH负荷最高的受试者中发现了明显的低估,以及在3D FLAIR图像中WMH负荷中等的受试者中发现了明显的高估(见Bland–Altman图表4,面板a和b)。使用与黄金标准的绝对平均WMH体积差异类似的方法,我们能够显示BIANCA的平均WMH体积差异是由于不准确估计的WMH体积随机平均的结果(见表S8)。鉴于我们研究的重点是比较不同算法在成本和效益方面的表现,我们没有测试BIANCA的其他设置,而是遵循了原始BIANCA验证中建议的默认设置。据我们所知,BIANCA和LOCATE尚未使用纵向数据集进行验证。
4.2 将算法彼此比较
算法的质量评估基于完全手动分割的WMH(黄金标准)。为了证明结构效度,每种模式(T1w、2D FLAIR和3D FLAIR)的16个黄金标准相互之间以及与算法的相应WMH体积结果进行了相关性分析(见图5)。
图5.不同黄金标准(GS)(T1w)、GS(2D FLAIR)、GS(3D FLAIR)之间以及黄金标准与不同算法输出(FreeSurfer T1w、UBO 2D、BIANCA 2D、UBO 3D和BIANCA 3D)之间的WMH体积估计的相关性矩阵。黄金标准之间相关性的结果(所有组合:r = .97,p < .05)
我们发现的黄金标准WMH体积之间的强相关性(平均r = .97,p < .05)表明我们的黄金标准具有非常高的有效性。在评估不同方法提供的体积与其相应黄金标准体积的关联时,发现UBO Detector 3D的相关性最高,其次是UBO Detector 2D、FreeSurfer T1w、BIANCA 2D和BIANCA 3D。这种相关模式很有趣,部分出乎意料,特别是考虑到BIANCA是唯一一个以每种模式的定制训练数据集(基于2D和3D FLAIR图像)输入的算法。与此一致,发现UBO Detector 2D和3D FLAIR的WMH体积估计之间的关联非常高,而与BIANCA相对应的相关性明显较小。我们的结果与Vanderbecq等人(2020年)的最新研究一致,他们也报告了UBO Detector与BIANCA相比具有更高的WMH分割准确性。
值得注意的是,FreeSurfer的WMH体积与UBO Detector的两个输出相关性非常高,但与BIANCA提供的体积估计的相关性较弱,这可能是因为BIANCA产生的异常WMH分割。另一方面,FreeSurfer提取的WMH体积通常小于UBO Detector和BIANCA的输出。我们想强调的是,FreeSurfer是唯一一个甚至低估了它“自己”的黄金标准的算法。这种WMH体积低估也影响了准确性指标(DSC、敏感性、OER和ICC),与其他算法相比,FreeSurfer显著更差。在H95和DER方面,BIANCA 3D FLAIR表现最佳。另一方面,BIANCA与Fazekas评分的相关性最弱,且在LMMs中的残差方差最大。与后者一致,与其他算法相比,BIANCA 2D和3D FLAIR有最高数量的异常WMH体积,这在受试者内轨迹中可以清楚地检测到。一些研究报告了WMH体积年增加百分比的范围,对于早期融合病变的受试者在12.5到14.4%之间,对于融合异常的受试者在17.3到25.0%之间(Duering等,2013年;Ramirez等,2016年;Sachdev、Wen、Chen和Brodaty,2007年;R. Schmidt等,2003年;van Dijk等,2008年)。Ramirez等人(2016年)在他们的表2中总结了串联MRI研究中WMH体积进展率,显示出广泛的变化范围。在我们的研究中,基于BIANCA估计的年WMH体积增加[e.g., 31.85 ± 76.5% (M ± 1SD) for BIANCA 2D]明显高于文献报告的变化,并且也高于本研究中使用UBO Detector和FreeSurfer检测到的变化(见表S10),这可能也与影响分割可靠性的异常分割有关。通过Bland–Altman图更仔细地观察算法的分割变异性,该图展示了用于手动分割的子样本(N = 16)的数据(见图4,面板a和b),我们观察到BIANCA中的一致性限制比UBO Detector更宽。此外,2D和3D FLAIR图像图表显示出强烈的异常值(低估和高估)。有趣的是,在这个子样本中,BIANCA输出中的单个偏差似乎相互抵消,导致平均WMH体积与黄金标准的WMH体积非常相似(见表S8)。
从分析算法的验证中,我们可以得出结论,与BIANCA 2D/3D相比,我们的子集UBO 2D/3D和FreeSurfer T1w表现更为稳健,而且在时间上也更为一致。未来的研究需要评估BIANCA在我们的纵向数据集中产生的分割错误是否也会在其他数据集的背景下发生。
在使用FLAIR图像进行自动WMH病变分割的背景下的一个普遍问题是在输出掩码中错误地包含了透明隔,即分隔两个侧脑室的区域。这个区域在FLAIR序列上呈现高强度,因此看起来与WMH非常相似。当错误地检测为WMH时,透明隔作为一个假阳性区域进入输出体积,导致WMH体积的高估。UBO Detector的开发者们在他们的黄金标准中也分割了透明隔(见他们的图S1b)。由于他们已经用这个假阳性信息喂养了他们的算法,可以预期UBO Detector也会在我们的数据中分割透明隔,这可能导致与FreeSurfer和BIANCA相比较差的DER。
4.3 优势和局限性
这项研究的主要优势在于使用大型纵向数据集验证和比较了三种免费提供的算法,该数据集包括认知健康的成年人。重要的是,我们在所有三个平面(矢状、冠状和轴向)以及三种不同的MR模式(T1w、2D FLAIR和3D FLAIR)中使用了完全手动分割的黄金标准,多位操作员达成了出色的操作员间一致性。除了手动分割外,我们的研究还包括整个数据集的Fazekas评分,这些评分被用来交叉验证分割算法提供的WMH体积。
这项研究的一个局限是我们只将算法应用于一个样本,而且这个样本在其低病变负荷方面是同质的。未来的研究应确定这些结果对于其他研究、扫描仪、序列和包括临床人群的异质数据集的普遍性如何。
4.4 算法的可用性
鉴于WMH提取算法通常不是由受过训练的程序员实现的,因此在本工作的背景下,可用性是一个重要问题。
FreeSurfer没有专门为WMH检测编程,而是用于广泛分析脑成像数据的工具。由于FreeSurfer除了WMH体积之外还输出了许多其他参数,处理时间非常长(每个会话需要数小时)。FreeSurfer的输出包括总WMH体积和总非WMH体积(灰质)。
UBO Detector专门为WMH检测编程,并已使用“内置”训练数据集进行了训练。理论上,可以使用先前手动分割的黄金标准训练算法。然而,这个程序只能在DARTEL空间的图形用户界面(GUI)中工作,且非常耗时。UBO Detector的输出结构良好,包括WMH体积和总WMH、PVWMH、DWMH以及每个脑叶的WMH群集数等。对于子集2,整个WMH提取过程(包括预处理和后处理)在方法部分指定的计算环境中大约需要14分钟/脑。对于子集3,WMH提取大约需要32分钟/脑。
BIANCA是FMRIB的自动分割工具(FSL; Zhang, Brady, & Smith, 2001)中的一个工具,无需任何其他程序。它在可用的MRI输入模式方面非常灵活,并提供了许多不同的优化选项。BIANCA的输出包括总WMH。如果需要,可以选择距离脑室的距离来分割PVWMH和DWMH。在有许多受试者和时间点的纵向研究中,或者在样本量大的研究中,算法输出文件的聚合似乎非常耗时,因为输出文件很多。我们对BIANCA的预处理步骤大约需要每个受试者2:40小时来准备模板,以及每个会话1:10小时来准备T1w、2D和3D FLAIR图像。预处理后,BIANCA需要大约每个会话1:20小时来设置两个FLAIR图像的阈值,WMH分割大约需要每个会话2D FLAIR图像4分钟,3D FLAIR图像8分钟。
5 结论
当前研究的主要目的是比较和验证三种免费提供的自动WMH分割算法,使用一个包括认知健康成年人的大型纵向数据集,这些成年人的WMH负荷相对较低。我们的结果表明,FreeSurfer显著低估了总WMH体积,并完全漏掉了一些DWMH。因此,这个算法似乎不适合专门研究WMH及其相关病理。然而,考虑到与Fazekas评分的高关联性和其纵向稳健性,FreeSurfer在临床实践中的适用性可以在未来的研究中进一步探索。BIANCA在准确性指标方面表现大体良好。然而,当算法应用于纵向数据集时,发现了许多异常分割,这可能导致BIANCA的WMH体积估计与其他算法的体积估计以及与Fazekas评分和年龄的相关性较低。UBO Detector作为一种完全自动化的算法,由于其完全通用的性能,在成本和效益方面表现最佳。尽管UBO Detector在本研究中表现非常好,但希望能改进准确性指标,如DER和H95,以使其成为WMH手动分割的真正替代品。总的来说,这项研究确认了基于纵向数据集验证算法的重要性——特别是在大样本研究中,无法可行地检查和验证每一张图像及其WMH分割。
如需原文及补充材料请添加思影科技微信:19962074063或18983979082获取,如对思影课程及服务感兴趣也可加此微信号咨询。另思影提供免费文献下载服务,如需要也可添加此微信号入群,原文也会在群里发布,如果我们的解读对您的研究有帮助,请给个转发支持以及右下角点击一下在看,是对思影科技的支持,感谢!