目录
简要总结
这篇文章的核心内容是探讨如何利用弥散张量成像(DTI)和机器学习算法(支持向量机,SVM)来识别肌萎缩侧索硬化症(ALS)。研究纳入了22名ALS患者和26名健康对照者,提取了他们的DTI图像中的分数各向异性(FA)值作为特征,并使用SVM构建分类模型。结果显示,通过选择2,400个最优特征,模型达到了83.33%的分类准确率(敏感性为77.27%,特异性为88.46%,P=0.0001),表明基于SVM和DTI的WM测量在ALS诊断中具有可行性。研究还发现,ALS患者的FA值降低主要涉及运动和非运动区域,这支持了ALS是一种多系统神经退行性疾病的假设。此外,分类器的预测函数值与ALS的严重程度呈正相关,表明SVM方法在ALS识别中具有潜在应用价值。研究建议未来使用更大的样本量来验证这些结果,并探索结合其他神经影像学特征的诊断价值。
目标:在肌萎缩侧索硬化症(ALS)中,涉及运动和非运动区域的白质(WM)损伤已被广泛记录。本研究测试了基于支持向量机(SVM)的白质扩散测量在识别ALS中的潜力。
方法:从22名ALS患者和26名健康对照组中提取弥散张量成像(DTI)的体素级分数各向异性(FA)值,作为区分特征。采用修订版ALS功能评分量表(ALSFRS-R)评估ALS的严重程度。基于费舍尔分数进行特征排序和选择。应用线性核SVM算法构建分类模型,并对其分类性能进行评估。为提高分类器的泛化能力,采用留一法交叉验证(LOOCV)方法。
结果:使用2,400~3,400个排名靠前的特征作为最优特征时,实现了最高的分类准确率83.33%(敏感性=77.27%,特异性=88.46%,P=0.0001),受试者工作特征曲线下面积为0.862。预测功能值与患者ALSFRS-R评分呈正相关(r=0.493,P=0.020)。在优化的SVM模型中,主要涉及皮质脊髓束通路、中央后回以及额叶和顶叶区域的FA值对分类的贡献最大。
结论:该研究结果表明,基于SVM分析和白质扩散测量的ALS诊断是可行的。建议进行更大样本量的研究以验证本研究的结果。
关键词:肌萎缩侧索硬化症,弥散张量成像,白质,支持向量机,诊断
1. 引言
肌萎缩侧索硬化症(ALS)是一种病因隐匿且致命的神经退行性疾病,主要发生在成年人中,涉及上运动神经元和下运动神经元。ALS是一种异质性疾病,通常在早期阶段难以诊断。大多数ALS患者死于呼吸衰竭。ALS的中位生存时间为3-5年。利鲁唑只能将生存时间延长2-3个月。因此,ALS的早期诊断尤为重要。
弥散张量成像(DTI)是一种非侵入性扫描技术,能够提供白质(WM)组织微观结构的精细细节,因此在研究神经系统疾病的病理学中发挥着关键作用。DTI参数,如分数各向异性(FA)、轴向扩散率(AD)、径向扩散率(RD)和平均扩散率(MD),提供了分子在不同方向上扩散的信息。多项DTI研究揭示,ALS患者在运动和非运动区域均表现出FA降低和扩散率参数增加。其中,皮质脊髓束(CST)和胼胝体的DTI测量变化被认为是ALS诊断和评估的有前景的生物标志物候选指标。例如,许多研究一致表明CST的FA值降低,并且在群体水平上具有高度区分ALS患者和健康对照者的能力。此外,一些在个体水平上的区分研究表明,CST和胼胝体的扩散指标改变可以作为识别ALS的敏感标志物。此外,当DTI测量与其他神经影像学生物标志物(如皮层厚度和功能测量)结合时,可能在正确区分ALS方面发挥更大的潜在作用。此外,通过同时采用扩散测量和高分辨率的体积/表面成像,研究人员已经证明了多模态神经影像学在预测ALS患者生存期方面的可行性。
最近,机器学习领域有望实现神经心理疾病的计算机辅助诊断,引起了广泛关注。利用各种模型神经成像数据(例如高分辨率T1加权图像、磁共振光谱和RTI),许多机器学习方法已成功实施在ALS的预测建模中。其中,随机森林方法就是一个很好的例子,它可以整合多峰成像数据,对于ALS的个体识别取得相当有希望的结果。
支持向量机(SVM)是另一种被用于评估患有肌萎缩侧索硬化症(ALS)患者的区分性脑图的算法。事实上,越来越多的研究正在探索SVM在神经影像数据中用于ALS临床预测的应用。例如,一项先前的静息态功能磁共振成像研究应用了SVM,根据大脑网络中的功能连接度测量来识别ALS,并且在疾病状态分类中取得了很高的准确性。最近的研究还表明,18F-FDG PET(18F-2-氟-2-脱氧-D-葡萄糖正电子发射断层扫描)与SVM判别分析相结合,可以在区分ALS患者和健康对照组方面获得有前景的结果。在这项探索性研究中,旨在测试基于SVM学习方法,利用白质(WM)中的体素级扩散测量来识别ALS的潜力。
2. 被试
本研究共纳入22名ALS患者(1例为家族性,21例为散发性)以及26名健康对照者(HC)。采用El Escorial标准对ALS进行诊断,同时使用修订版ALS功能评分量表(ALSFRS-R)评估疾病的严重程度。研究参与者的临床和人口学信息见表1。患者组和对照组在年龄、性别或教育水平方面均未观察到显著差异(详细信息见表1)。
排除标准如下:(1)存在其他神经精神疾病,包括帕金森病、阿尔茨海默病、癫痫或抑郁症;(2)使用精神类药物;(3)出现呼吸衰竭或其他严重疾病,如心血管疾病或癌症;(4)存在MRI检查禁忌。本研究已获得中国福建医科大学附属协和医院研究伦理委员会的批准,所有受试者均提供了书面知情同意。
表1
3. MRI数据采集
图像采集使用了3T磁共振成像扫描仪(Prisma,德国西门子医疗系统公司)。弥散张量成像(DTI)数据通过自旋回波单次激发回波平面成像序列采集,参数如下:b值=1,000 s/mm²,64个编码扩散方向;重复时间=2,500 ms;回波时间=81 ms;平均次数=1;层厚=2 mm,无间隔;视野=260×260 mm;矩阵=130×130;翻转角=90°;共72个轴位切片;多带因子=4。
4. DTI数据处理
DTI数据通过基于FSL的处理流程进行分析。该研究对原始的DTI数据进行了头动校正和涡流失真校正,随后为每个体素独立拟合了一个扩散张量模型。之后,获得了每个受试者的分数各向异性(FA)图像。所有受试者的FA图像通过非线性配准算法对齐到蒙特利尔神经研究所(MNI)空间的FMRIB-58 FA模板。然后,所有图像均使用6毫米全宽半高(FWHM)高斯核进行了平滑处理。
5. 机器学习分类
图1展示了机器学习过程的五个步骤:(i)将整个数据集分为两部分:一个受试者作为测试集,其余的组成训练集;(ii)从DTI图像中提取特征;(iii)计算每个特征的费舍尔分数并对特征进行排序;(iv)选择排名前k的判别特征来构建SVM分类器模型并对其进行测试;以及(v)评估机器学习分类的性能。代码基于LibSVM工具箱在MATLAB(2016a版,MathWorks公司,美国马萨诸塞州纳提克)中实现。
为了评估所开发的SVM分类器的泛化性能,该研究采用了留一法交叉验证(LOOCV)方法。如果受试者的数量为n,那么这个交叉验证过程将进行n次(即图1中的流程图重复n次)。在每一轮中,选择一个受试者作为测试数据集,其余的n-1个受试者构成训练数据集。
在步骤(ii)中,从每个受试者的FA图像中提取特征向量,以形成原始特征矩阵。训练数据集和测试数据集的特征矩阵维度分别为(n-1)×m和1×m。由于存在不相关或冗余的特征,学习模型将倾向于过拟合,这反过来又会降低分类性能。费舍尔分数算法是一种监督特征选择方法,能够有效地衡量两类数据的判别能力,并为更具判别能力的特征分配更高的分数。
图1
根据费舍尔标准独立计算每个特征的分数。随后,选择了排名最高的前k个特征。第q个特征的费舍尔分数定义如下:
特征根据预先计算的费舍尔分数按降序排列。随后,选择其中一些特征作为输入,用于构建和测试支持向量机(SVM)分类器模型。图1显示,虚线框表示机器学习过程中的一个循环。对于每个循环,选择的特征数量以100为增量逐步增加(即对于循环t,选择的特征数量(记为k)等于t×100)。循环的总次数为200次;因此,选择的特征数量范围从100到20,000。特征排序和选择嵌套在留一法交叉验证程序中,以促进模型的泛化能力,通过该程序获得了训练输入和测试输入(其维度分别为(n-1)×k和1×k)。
基于这些输入,训练和测试了支持者分类器模型。支持者是一种分类算法,通过最大超平面裕度来分离两个类别。其主要任务是从训练输入中建立一个辨别决策函数f,以便对于测试输入x,该决策函数可以通过y = f(x)预测类别标签。决策功能以以下形式定义:
其中,w是垂直于决策超平面的权重载体; T代表矩阵转置操纵; b是超平面的偏差(偏置参数);而ph是将输入载体x转换为某些其他特征空间的转换函数,其中,支持算法可以为训练输入提供线性分离。通过应用核方法和二元定理,测试输入x的预测函数值可以写成如下:
其中,αj是拉格朗日乘子;K(xj, x)是计算点积φ(xj)Tφ(x)的核函数,它可以推广到非线性情况。当特征维度较高时,数据倾向于线性可分;因此,选择了线性核,而不是常用的径向基函数(RBF)核。对于线性SVM模型,只有一个参数C用于控制误分类的惩罚。该参数如前所述固定为1。使用线性核时,决策函数为y = f(x) = wTx + b,根据公式(3)。根据SVM优化理论,权重向量w表示两组之间特征差异最大的方向。因此,它被用来生成区分脑图。在区分图中,正值表示患者的FA值相对低于健康对照组(HC),而负值表示HC的FA值较低。权重向量w的绝对值大小代表了两组之间FA差异的强度。给定排名前k(k = t × 100)的特征长度,可以为每个留一法交叉验证(LOOCV)折获得权重向量w(长度=k)和偏置参数b。一旦计算出w和b,就可以预测测试输入x的函数值y。如果函数值y > 0,则测试受试者被分配到健康对照组(标签1);否则,测试受试者被分配到患者组(标签2)。分类器模型的准确率、敏感性和特异性是基于这些类别标签计算的。需要注意的是,在建立SVM模型之前,对选定的特征进行了均值中心化和归一化操作。
由于权重向量 w 在每个交叉验证折中略有变化,计算了平均权重向量以生成区分图。分类器性能的定量分析通过受试者工作特征曲线(ROC)完成,并采用置换检验来评估分类准确率的统计显著性(用P值表示)。随机置换输入受试者的类别标签,并重复分类分析过程(共10,000次)。统计置换检验中分类准确率不低于实际分类准确率83.33%的次数,然后将该次数除以10,000,以获得P值。此外,其他由DTI导出的参数(即RD、AD和MD)也通过上述过程进行了计算和分析。
6. 结果
图2展示了基于不同数量的FA特征的准确率、敏感性和特异性的详细结果。当特征集的规模较小时,输入数据无法提供足够的信息来训练出一个可靠的模型;而如果特征集规模过大,输入数据中会出现冗余或不相关的信息,从而导致机器学习的性能下降。只有当选择了适当的数据集时,分类算法才能达到最佳性能。当选择特定数量(1,400到3,400之间)的特征时,可以获得最佳的分类准确率。因此,研究选择了排名前2,400(1,400和3,400之间的中间值)的特征作为最优特征。利用这些具有区分能力的特征,研究确定SVM分类器的准确率可以高达83.33%(敏感性=77.27%,特异性=88.46%,P=0.0001)。以泛化准确率作为统计变量,估计的置换分布如图3所示,表明分类准确率大于83.33%的概率非常低(P=0.0001),这表明研究的结果高度可靠。
图2
图3
此外,研究利用SVM分类器获得了每个测试受试者的预测函数值(见图4)。圆形和三角形分别代表健康对照组(HC)和患者。右侧的圆形表示被正确分类为健康对照组的受试者,而左侧的三角形表示被正确分类为患者的受试者。根据这些点的分布,研究发现大多数受试者(40/48)被分类器正确分配了标签。
图4
通过以每个受试者的预测函数值作为指标,研究生成了分类器的接收器工作特征(ROC)曲线(图5)。所开发方法的ROC曲线下面积(AUC)为0.862,说明分类的功效相对较强。计算Spearman相关系数以评估预测函数值和ALSFRS-R评分之间的相关性(图6)。研究观察到这些参数之间存在正相关关系(r = 0.0.397,P = 0.034)。
图5
图6
表2
权重向量 w 用于指示两组之间最具区分能力的特征子集。因此,通过设定阈值为最大权重向量分数的≥10%,识别出对区分贡献最大的白质(WM)区域的FA值。表2 列出了这些区域的详细信息,并根据它们对组间区分的贡献(即权重向量 w)对这些区域进行了排序。图7 展示了 SVM 分析生成的属性权重的相关分布。在健康对照组(HC)中,FA值相对较高的白质区域位于多个部位,例如双侧放射冠和中央前回、右侧中央后回、右侧内囊后肢、左侧额上回、左侧角回、左侧颞中回、左侧枕中回、双侧中脑以及双侧桥脑和延髓;而在患者组中,FA值相对较高的白质区域位于左侧额叶、左侧缘上回和右侧缘上回。
图7
7. 讨论
在本研究中,将弥散张量成像(DTI)与支持向量机(SVM)相结合,用于对ALS患者和健康对照者(HC)进行分类。在优化的SVM模型中,获得了高达83.33%的分类准确率。置换统计分析进一步验证了研究SVM分类器的可靠性。来自运动和非运动区域的分数各向异性(FA)值对分类做出了贡献,这可能表明ALS是一种多系统的神经退行性疾病。进一步的受试者工作特征(ROC)分析也表明,FA测量在准确区分ALS方面具有很高的潜力。此外,分类器的预测函数值与ALS疾病的严重程度相关。这些结果表明,基于白质DTI测量的SVM方法在ALS识别方面具有广阔的应用前景。
在ALS中,白质完整性受损(表现为FA降低)已被广泛记录,这可能是由于轴突和髓鞘的破坏(6, 28, 29)。ALS的一个早期神经病理学特征是轴突运输缺陷,这可能导致远端轴突能量不足和逆行性轴突病变。少突胶质细胞在中枢神经系统(CNS)轴突的髓鞘形成中发挥重要作用,并支持轴突的功能和存活。已有研究报道ALS中少突胶质细胞的病理异常(例如,少突胶质细胞死亡以及新少突胶质细胞成熟受损),这可能导致轴突脱髓鞘。
与以往的研究一致,研究发现ALS中FA降低的白质区域涉及双侧中央前回和皮质脊髓束(CST)通路,例如双侧放射冠、右侧内囊后部、双侧中脑、双侧桥脑和延髓。中央前回是初级运动皮层(PMC)的一部分。已有研究表明,ALS中PMC出现退行性变化,例如Betz细胞显著减少和皮层变薄。皮质脊髓束(CST)连接运动皮层和脊髓中的神经元,是与皮层对脊髓活动控制相关的纤维。CST的退行性变也是ALS的一个标志。总之,这些与运动相关的区域受损可能导致运动神经元功能障碍,并引发ALS患者所表现出的相关症状(例如,肌肉无力和自主控制能力丧失)。
FA降低的区域还包括一些非运动区域,例如右侧中央后回、涉及左侧额上回、左侧角回和左侧颞中回的左侧上纵束(SLF),以及涉及左侧颞中回和左侧枕中回的左侧下纵束(ILF),这与以往研究的结果一致。例如,已有研究表明,ALS中中央后回显著的皮层变薄,即初级体感皮层,与疾病的严重程度相关。此外,上纵束(SLF)连接额叶、顶叶和颞叶,并在语言功能中发挥关键作用,在ALS中受到破坏。同时,左侧下纵束(ILF)的损伤——该纤维主要与视觉处理、语言/语义功能以及情绪调节相关——已在ALS患者中被报道。因此,这些在非运动区域出现的损伤(表现为 FA 值降低)可能与 ALS 中报告的各种非运动功能障碍相关,例如感觉障碍、语言功能障碍,以及行为和精神异常。
相比之下,研究的结果显示ALS患者的多个大脑区域,包括左额叶、左顶下叶和右上顶叶的FA相对增加。推测这些变化可能与ALS的功能补偿或脑结构重组有关。与这一猜测一致,ALS中已经证明了几种补偿现象,如灰质体积增加或特定大脑区域过度激活所反映的那样。
由于肌萎缩侧索硬化症(ALS)的发病率较低(约为5/100,000)以及其异质性本质,对ALS的准确识别和特征描述仍然是一个挑战。研究的研究结果表明,基于机器学习方法,白质的弥散张量成像(DTI)测量可以作为一种替代ALS生物标志物的手段。与之相一致的是,以往的研究也已经展示了扩散测量在群体水平和个体水平识别ALS方面的潜力。受试者工作特征曲线(ROC 曲线)分析以及置换统计检验进一步验证了本研究分类结果的可靠性。此外,研究的结果表明,与其它DTI指标相比,分数各向异性(FA)是识别ALS最有前景的生物标志物,这与以往强调FA变化是ALS一致性的标志的研究结果相一致。此外,研究还观察到支持向量机(SVM)预测函数值与ALS功能评分量表修订版(ALSFRS-R)评分之间的相关性。由于预测函数值是通过将最优特征投影到超平面的权重向量上计算得出的,因此较大的绝对值意味着受试者距离超平面更远,并且对分类的贡献更为显著。因此,研究可以推断,当ALSFRS-R评分更高(即疾病严重程度更高)时,受试者被误分类的可能性更低。
从数据驱动的方法学角度来看,本研究采用支持向量机(SVM)方法建立ALS的预测模型,因为SVM能够同时容纳所有体素级的DTI测量,并且能够在高维特征空间中模拟它们的交互作用,以优化组间分类。作为一种监督学习模型,SVM的优势在于其正则化参数,这有助于防止模型过拟合,并且在处理小样本数据时,SVM表现出良好的性能和泛化能力,因此在样本量有限的探索性工作中,SVM方法更受青睐。与本研究不同的是,近期使用预定义感兴趣区域(例如皮质脊髓束,CST)的DTI指标的机器学习研究,已采用随机森林(Random Forests)方法构建ALS与健康对照之间的区分模型。随机森林在处理高度非线性生物数据的能力、对噪声的鲁棒性以及调整的简便性方面,比其他方法具有优势。综合来看,SVM和其他方法(例如随机森林)都可以用于ALS预测建模的实施,并展现出各自独特的方法学优势。因此,建议在未来对各种机器学习方法的诊断性能进行全面比较。
本研究存在一些局限性。首先,与其他关于ALS的先前研究不同,研究没有考虑疾病的异质性,也没有进行任何研究来检验DTI测量在区分ALS亚型方面的潜力。其次,尽管SVM算法在医学数据分析中被广泛使用,但也可以探索其他机器学习算法,以提高分类模型的性能,并为ALS患者寻找更可靠的生物标志物。第三,其他神经影像学特征(例如功能连接)也有助于ALS的识别,因此在未来的研究中,应考虑将DTI与其他MRI数据模态相结合。最后,建议通过更大样本量的研究来进一步验证本研究的发现。
研究的结果表明,基于支持向量机(SVM)分析和白质(WM)扩散测量的ALS诊断是可行的。对SVM分类贡献最大的白质区域的分数各向异性(FA)值涉及运动和非运动区域,从而支持ALS是一种涉及多系统神经退行性疾病的观念。除了现有的研究外,研究的发现进一步提供了确认性证据,表明将支持向量机等机器学习方法与神经影像学数据相结合,在ALS预测方面具有广阔的应用前景。然而,考虑到样本量较小以及其他局限性,本研究本质上是一项探索性工作。建议通过更大样本量的研究来验证研究结果的普遍性,并推荐未来的研究验证纳入其他模态神经影像学数据的附加诊断价值。
精读分享
1. 研究背景
肌萎缩侧索硬化症(Amyotrophic Lateral Sclerosis, ALS)是一种隐源性、致命的神经退行性疾病,主要影响上下运动神经元。ALS的早期诊断较为困难,且目前缺乏有效的治疗方法,患者中位生存时间仅为3-5年。因此,早期诊断ALS具有重要意义。近年来,弥散张量成像(Diffusion Tensor Imaging, DTI)作为一种非侵入性扫描技术,能够提供白质(White Matter, WM)组织微结构的详细信息,已被广泛用于研究神经性疾病的病理变化。DTI参数(如各向异性分数Fractional Anisotropy, FA)已被证明在ALS患者中存在显著变化,尤其是在皮质脊髓束(Corticospinal Tract, CST)和胼胝体中。然而,目前仍缺乏基于DTI的机器学习方法对ALS进行诊断的研究。
2. 研究方法
2.1 数据来源与参与者
研究共纳入22名ALS患者(1例家族性,21例散发性)和26名健康对照(Healthy Controls, HC),所有参与者均接受了DTI扫描。ALS患者的诊断依据为El Escorial标准,并使用修订版ALS功能评分量表(ALS Functional Rating Scale-Revised, ALSFRS-R)评估疾病严重程度。两组在年龄、性别和教育水平上无显著差异。
2.2 神经影像分析流程
DTI数据采集使用3T MRI扫描仪,b值为1000 s/mm²,共64个扩散方向。数据处理包括头动和涡流校正、扩散张量模型拟合以及非线性配准到MNI空间。最终,所有FA图像经过6 mm高斯核平滑处理。
2.3 机器学习分类
研究采用支持向量机(Support Vector Machine, SVM)算法进行分类,具体步骤包括:
数据分割:采用留一法交叉验证(Leave-One-Out Cross-Validation, LOOCV),每次将一名受试者作为测试集,其余作为训练集。
特征提取:从FA图像中提取特征向量,形成原始特征矩阵。
特征排序与选择:基于Fisher分数对特征进行排序,选择排名前k个特征用于模型训练。
SVM模型构建与测试:使用线性核函数构建SVM模型,固定惩罚参数C=1。
性能评估:通过接收者操作特征曲线(Receiver Operating Characteristic, ROC)分析评估分类性能。
3. 研究结果
研究发现,当选择2400-3400个特征时,分类准确率最高,达到83.33%(敏感性=77.27%,特异性=88.46%,P=0.0001),ROC曲线下面积(AUC)为0.862。此外,SVM预测函数值与ALSFRS-R评分呈正相关(r=0.397, P=0.034)。
在优化后的SVM模型中,FA值对分类贡献最大的白质区域主要涉及运动和非运动区域,包括双侧冠状辐射、中央前回、右侧后中央回、右侧内囊后肢、左侧额上回、左侧角回、左侧中颞回、左侧中枕回、双侧中脑、双侧脑桥和延髓。相比之下,ALS患者中FA值相对较高的区域包括左侧额叶、左侧角回和右侧顶上小叶。
4. 讨论与结论
本研究通过结合DTI和SVM方法,成功实现了对ALS患者的高准确率分类。结果表明,ALS是一种涉及多系统的神经退行性疾病,其白质损伤不仅限于运动区域,还广泛存在于非运动区域。此外,SVM预测函数值与ALSFRS-R评分的相关性进一步验证了基于DTI的SVM方法在ALS诊断中的潜力。
然而,研究也存在局限性:
样本量较小,且未考虑ALS的异质性。未与其他机器学习方法(如随机森林)进行比较。未结合其他神经影像模态(如功能连接)进行分析。未来研究应扩大样本量,进一步验证本研究结果,并探索多种神经影像模态的结合应用。
5. 批判性思考与展望
本研究为ALS的诊断提供了新的思路,但其结论仍需在更大的样本中进一步验证。未来研究可以考虑以下方向:
多模态影像结合:将DTI与其他神经影像技术(如功能磁共振成像、正电子发射断层扫描)结合,以提高诊断准确性。
机器学习方法比较:系统比较不同机器学习算法(如SVM、随机森林)在ALS诊断中的性能。
疾病异质性分析:探索DTI测量在区分ALS亚型中的潜力。
参考文献:
Chen Q-F, Zhang X-H, Huang N-X and Chen H-J (2020) Identification of Amyotrophic Lateral Sclerosis Based on Diffusion Tensor Imaging and Support Vector Machine. Front. Neurol. 11:275. doi: 10.3389/fneur.2020.00275