机器学习在重度抑郁症患者中的应用:从分类到治疗结果预测

13 篇文章 8 订阅
5 篇文章 3 订阅

重度抑郁症(MDD)是导致残疾和发病率最大的单一因素,影响全球约10%的人口。目前,临床上还未发现有用的诊断生物标志物可以从抑郁症和双相情感障碍(BD)的早期就能诊断出抑郁症。因此,迫切需要探索基于机器学习的方法找到情感障碍的生物标记物,尽管这在当前仍旧具有很大的挑战性,但机器学习方法仍旧在提高我们对这些障碍的理解方面具有巨大潜力。

本文中,作者们总结了用于大脑成像分类和预测的常用的机器学习方法,并提供了研究概述,特别是对MDD的研究。本文包括的研究类型有:使用磁共振成像数据 (a)对MDD与对照组或者与其他情感障碍进行分类,或(b)研究个体患者的治疗结果预测。最后,还讨论了与MDD生物标志物识别相关的挑战、未来方向和潜在限制,目的是提供一个全面的概述,帮助读者更好地理解神经影像数据挖掘在抑郁症中的应用。本文旨在强调对治疗模式创新的必要性,以指导个性化的最佳的临床护理。本文发表在CNS Neuroscience & Therapeutics杂志。

1、引言

重度抑郁症(MDD)是一种高度流行的精神疾病,对生活质量和社会经济负担有显著影响。MDD的诊断通常取决于《精神障碍诊断和统计手册》(DSM)的标准和治疗反应。由于精神疾病的表型重叠以及疾病(如MDD)内部的异质性,临床诊断通常不像研究方案中那样精确。因此,精神障碍患者在接受最终诊断之前,有时不得不忍受错误的药物试验或多次试验。对于《精神障碍诊断和统计手册》上分类不明确且主观临床印象混乱的情况,迫切需要一种有效的诊断工具,例如使用客观的脑影像测量。

神经成像提供了对大脑功能和结构的无创性测量,可作为研究鉴别性生物标记物的有力工具。实际上,大脑神经解剖学本质上是复杂和异质的,这使精神疾病患者的功能连接更加复杂。考虑到高维成像数据通常包括有限数量的样本,确定有效的最佳的诊断情感障碍的方法尤其具有挑战性。有研究使用多种神经成像技术,包括磁共振成像(MRI)、正电子发射断层扫描(PET)、脑磁图(MEG)和脑电图(EEG),对抑郁症与健康对照组(HC)或其他情绪障碍进行了鉴别研究。其中,功能磁共振成像(fMRI)、结构磁共振成像(sMRI)和扩散磁共振成像(扩散张量图像,DTI)等与磁共振成像相关的成像技术表现出其多种特有的优势,包括能够提供大脑功能、结构及其连接图等。这些不同的大脑成像特征为研究人员揭开抑郁症背后复杂的神经机制提供了一个极好的机会。除了进行组分析,研究人员开始对基于机器学习(ML)技术识别疾病表型越来越感兴趣,这种方法在临床上具有意义,并且可以转化为临床诊断或预后,例如(a)预测对现有治疗的反应,或(b)确定新干预措施的更明确的目标。

在本文中,我们重点关注基于机器学习的MDD分类和预测研究,这些研究数据都来源于MRI。首先,基于一种特定的筛查方法,我们选择了63篇基于MRI的关于MDD机器学习文章,并研究了这些研究中所采用的机器学习方法。接下来,我们重点介绍一些关于情感障碍的代表性研究,例如,MDD与障碍(BD),以及MDD治疗结果的个体化预测。讨论了常见的误差并提供建议。最后,我们讨论了识别MDD疾病潜在生物标志物的未来研究方向。基于生物信息而非临床表现的分类和治疗策略的大数据挖掘方法最有可能推动该领域向前发展。
2、 研究综述

2.1 筛选方法

初筛标准为:研究集中于使用机器学习方法对MDD患者和健康对照者(或其他脑部疾病)进行分类(包括治疗预测),并采用磁共振成像作为数据获取途径,则纳入研究。图1I显示了称为PRISMA的筛选方法图(系统评价和meta分析的首选报告项目)。在PubMed使用关键词搜索 “depress*,” “MDD,” “MRI,” “fMRI,” “sMRI,” “DTI,” “magnetic resonance imaging,” “neuroimaging,” “classif*,” “diagno*,” “predict*,” “distinguish*,” “discriminat*,” “machine learning,”,找出从 2000年1月至2017年12月发表的相关文章,以上关键词既可以单独使用,也可以组合使用。上述搜索共发现2045篇文章。然后,通过这些论文的参考列表确定了其他文章,以确保本次审查中没有遗漏任何重要的研究,结果增加了另外82篇文章。在删除重复项后,保留了1980篇文章。此外,1874篇在标题和摘要筛选期间被排除在外,另有40篇在全文筛选期间被排除在外。最后,选择了66项MDD研究,我们将其主要研究发现总结如下。

表1:与抑郁症相关的分类研究综述

2.2 研究特点概述

图1显示了我们调查的几个关键方面。图1A显示了从2000年到2017年每年发表的关于该主题的论文数量。显然,2017年后有关此类研究出版物数量持续增长并急剧增加。图1B显示了属于不同分类组的研究数量,例如MDD与HC或MDD亚型。显然,MDD与HC分类是研究最多的,其次是MDD与BD(双相情感障碍)。MDD治疗结果的预测性研究的频率低于分类研究。图1C显示了这些研究中使用的流行机器学习方法的比例。支持向量机(SVM)仍然是最常见的方法选择,但其他ML方法也被应用于MDD,如高斯过程分类器(GPC)、线性判别分析(LDA)和决策树(DT),以及更新的深度学习模型。

图1D显示了5种方法报告的准确度分布情况,表明支持向量机的性能表现出很大的可变性,这可能是由于不同的样本大小,而一些不常见的方法在特定情况下表现出良好的性能。此外,不同MRI模态的使用比例以及每种模态研究报告的准确性如图1E、F所示。大多数研究仍然侧重于使用功能磁共振成像和结构磁共振的成像特征(22项静息状态功能磁共振成像;18项任务相关功能磁共振成像;21项结构磁共振成像),尽管在一项研究中应用了多模态MRI特征,但一些研究已经开始探索DTI(8项 DTI)的鉴别能力。总的来说,静息态磁共振(rsfMRI)数据显示出比其他方法更高的准确性。图1G说明了研究报告的每个交叉验证(CV)方法的样本量分布,包括留一交叉验证(LOOCV)、10折交叉验证或其他方法,几乎所有留一交叉验证研究的样本量都小于100,而10折交叉验证研究的平均样本量较大。值得注意的是,有一种特殊情况是,在我们的调查中,留一交叉验证中有一例大样本研究。图1H显示了与研究中使用的总样本量相比的总体准确度。总之,大多数研究的样本量较小,只有一项研究的样本量超过700,这就迫切需要将更大的样本量用于机器学习研究中的MDD研究。

图1:筛选MDD研究概要图。A、 筛选前的论文总数。B、 每组分类的出版物数量。C、 使用的机器学习方法的比例。D、 基于五种方法的精度箱线图。E、 使用的MRI模式的比例。F、 基于模式的准确性。G、 基于不同交叉验证方法的样本量箱线图。H、 总体报告精度与总样本量的散点图。I、文章搜索的步骤,J、MRI机器学习步骤的汇总

2.3 机器学习方法概述

图1J总结了使用MRI数据进行MDD诊断和预测的最常见机器学习方法。数据预处理后,采用的不同方法有较大的变化,但通常包括以下步骤:特征降维、模型训练、分类和性能评估。
2.3.1 特征降维

高维数据是神经成像中的常见问题,特征降维方法对于高维数据至关重要。有限数量的最相关特征保证了更准确的分类模型。这些方法主要分为特征选择和特征提取。特征选择即为基于有监督的方法借助于训练数据的标签选择最显著的特征以降低噪声。一种策略是可以使用先验知识来降低维度。特征提取即为将原始高维数据投影到低维,同时保持其鉴别能力,并且从训练数据计算投影矩阵的方法。一种典型的降维方法是主成分分析(PCA)。这些特征选择和特征提取方法只能在训练数据集(或交叉验证中指定的训练组)上进行,以避免产生有偏差的结果。此外,一些研究提出通过在训练数据中不同组之间的特征空间中采用几何距离提供了一种中间解决方案来实现特征选择,如基于近邻或基于边缘的特征选择算法。
2.3.2 模型训练在模型训练阶段,对于监督学习方法,使用标记数据优化模型,以找到区分不同组(如抑郁症患者和健康对照组)的判别“决策函数”或“超平面”。对模型参数进行了优化,以最大限度地区分一组和另一组。交叉验证通常被用在模型训练过程中。常用的交叉验证方法包括:K折交叉验证、留一交叉验证、留出交叉验证。对于k折交叉验证,将训练数据分为k个大小相等的组。然后,将k组中的每一组视为测试数据,并重复k次迭代。后两种技术可被视为k折交叉验证的变体。留出法用于大样本量(k=1)的数据,而留一法用于小样本量(k=1)的数据。
2.3.3 分类

在分类阶段,训练模型用于预测新的、以前未看到的观测值的标签。对于无偏评估,重要的是测试数据不与训练数据重叠。新数据必须以与训练数据相同的方式进行预处理,并使用从训练阶段获得的优化参数应用相同的特征降维方法。在样本有限而无法获得独立测试数据的情况下,可以使用嵌套交叉验证框架来评估模型的性能。在我们的调查中,最常用的分类器是SVM,因为它在神经成像方面有很好的效果。
2.3.4 性能评估

基于分类的算法的性能评估可以通过准确性、灵敏度、特异性和ROC曲线(关于敏感性对1-特异性的函数曲线)来描述。准确性有助于评估模型对测试数据进行分类的准确程度。敏感性(或召回)是指正确识别的真实阳性的比例(例如,确定为MDD的真实抑郁症患者的百分比)。相反,特异性是指正确识别的真阴性的比例(例如,健康人被识别为HC的百分比)。ROC曲线说明了该方法的整体性能,通常通过曲线下面积(AUC)进行总结。混淆矩阵是n个标签的n×n矩阵,一边表示实际标签,另一边表示预测的标签,当标签数据组多于两个时,混淆矩阵非常有用。混淆矩阵还提供与不均衡数据相关的信息,并计算其他性能指标,如精确度(阳性预测值)、F1分数(精确度和召回率的调和平均值)和G平均值(精确度和召回率的几何平均值)。对于不均衡的样本量数据,灵敏度(重新调用)、特异性和精度比更高的总体准确度更为理想,因此,在这种情况下,首选此类方法来评估分类器。对于不均衡数据报告的其他方法包括F1分数和G均值,均有助于评估模型结果的性能。
3、机器学习在重度抑郁症中的应用

机器学习被定义为一种从经验数据中学习以开发训练模型并从新数据中进行准确分类的方法。它在MDD方面的优势不仅限于诊断,还可以预测未来的疾病进展,其中最显著的优势是它适用于个体水平的分析。表1对66项基于机器学习在各方面的研究进行总结。这些工作大多旨在开发能将MDD与对照组或情绪障碍亚型区分开来的计算方法,并尝试开发新工具,将影像测量与临床实践相结合。 3.1 突破性研究

3.1.1 MDD的脑网络的分类

许多研究使用图论方法来强调抑郁症患者大脑功能和结构网络的破坏。这些基于连接组的生物标记物,通过提供有关生物学机制的重要信息,为重新定义抑郁症的诊断并改进治疗措施提供了新的机会。这里,我们总结了一些关于功能和结构脑网络在抑郁症方面的重要发现。有文献列举了不同脑网络特征,包括抑郁症患者中不同磁共振模态下局部和连接的改变:基于感兴趣区和基于体素的分析(脑功能磁共振),区域密度和皮层形态(结构磁共振)和白质结构连接(弥散张量成像)。有文献研究了抑郁症患者的全脑静息态功能连接,成功地对重度抑郁症患者和健康正常组进行鉴别,并达到100%的敏感性。最显著的功能连接位于或跨越:默认网络、情感网络、视觉皮层区域和小脑,可能在该疾病的病理机制中起重要作用。
3.1.2 MDD治疗反应的预测

静息态网络活动的改变已被探究成为预测治疗结果的潜在生物标志物。有参考文献表明,使用功能磁共振成像定义了四种不同的MDD神经生理学生物型,其特征是边缘和额叶功能连接的不同模式。这些生物型与不同的临床症状相关联;例如,对重复经颅磁刺激(rTMS)治疗反应最好的生物型与高水平疲劳和低快感相关。类似地,电休克疗法(ECT)也是抑郁症患者的常用治疗方法。一些研究已经探索了可能预测ECT反应的生物标志物。其中一项研究调查了灰质(GM)体积变化是否能够预测ECT反应。治疗前进行支持向量回归分析,并辅以汉密尔顿抑郁评分量表(HDRS)的单变量分析,成功预测ECT反应,显著预测HDRS的相对降低。另一项研究使用MDD患者ECT前灰质体积预测了ECT后抑郁缓解状态,并在两个独立的数据集中进行了验证。六个灰质网络被确定为ECT反应的预测因子,在三个独立的数据集中实现了89%、90%和86%的预测准确率。
3.2 MDD中常见的机器学习挑战

近年来,结合磁共振成像和模式识别技术来探究抑郁症生物标志物的研究大幅度增长。这些方法可以准确区分抑郁症患者与健康对照组并预测治疗反应。在我们调查中,关注分类的研究(53项研究)多于治疗反应预测(10项研究)。据我们所知,使用机器学习方法对抑郁症进行分类的文章数量有限,并且这些方法中的许多还没有应用到临床中。我们认为主要原因是成像数据的异质性,包括数据收集、扫描参数和处理方法,这限制了对其他数据集的泛化能力。
3.2.1 小样本数据

到目前为止,样本量小是大多数抑郁症研究面临的普遍问题,因此,在个体层面上就神经老化的诊断价值得出明确结论并不容易,尽管对数千个样本进行的几项MDD研究仍在进行中。考虑到招募患者的困难,小样本量的局限性是可以理解的。这一问题在机器学习方法中自然是困难和常见的,但与使用机器学习的其他领域相比,样本量仍然很小,导致了一些问题。越来越多的数据库解决了神经成像研究中小样本量的问题,但这些数据库通常在采集和处理参数方面缺乏一致性,这可能会对组合数据产生偏差。只要不同中心之间没有共同的标准,机器学习方法的执行就仅限于可用的样本量。
3.2.2 特征降维

鉴于过去研究使用的样本量较小,应使用适当的特征降维方法来提高整体性能。以往研究中使用的特征因MRI模式、特征降维方法以及特征的数量和类型而有很大差异。尽管如此,过去研究中的各种特征似乎对抑郁症有帮助,例如,前额叶背外侧区活动减少,前额叶皮质和皮质下系统灰质体积减少。在一些研究中,对整个数据集进行的分组差异进行选择特征,但这可能会在特征选择步骤中引入偏差。统计分析和鉴别力之间没有直接关系,因为它们是不同的标准。由于基于组差异选择特征可能会丢失此类有价值的鉴别信息,因此应引入更好的方法,包括递归特征消除(RFE)、最小冗余最大相关度(mRMR),以及选择学习对模型精度贡献最大的特征的方法,如最小绝对收缩和选择算子(LASSO)、弹性网(Elastic-Net)和岭回归。
3.2.3 过拟合

过度拟合可能导致训练数据的性能非常好,但测试数据的性能非常差,并且对独立数据集的泛化能力较差,这可能是由具有高维特征的小样本量和具有太多参数的复杂模型引起的。MDD中的神经成像应用在小样本下很可能出现过度拟合。交叉验证是控制过拟合的常用方法。如上所述,应根据数据量表选择合适的交叉验证类型,如图1G所示。
3.2.4 分类方法和交叉验证

几乎所有选定的研究都使用SVM或其变体方法作为主要分类方法,并使用LOOCV进行交叉验证。SVM是抑郁症分类中最常用的选择,原因在于它的有用优点包括可靠的理论基础和对高维数据的灵活响应。SVM在分类模型中常用的原因在于它可靠的理论基础和对高维数据的灵活响应。考虑到大多数神经影像学研究可能是非线性的,在抑郁症分类研究中,核支持向量机可以实现比其他方法更好的非线性分类性能。然而,如果样本数量明显少于特征数量,则最好简单地使用基于线性学习的方法,以避免复杂性并避免过度拟合。对于交叉验证,留一交叉验证(LOOCV)方法为机器学习模型的训练阶段提供了更多的数据,这与高方差相关,这可能会削弱泛化性能并导致过度拟合。根据我们最近的研究,10倍交叉验证在不同数据中提供了更稳定的性能,而留一交叉验证(LOOCV)的性能在很大程度上取决于使用的数据。


4、未来研究方向

根据对过去研究的前一部分中的讨论,有几个潜在的方向可供未来研究探索(图2和图3)。

图2:MDD分类中的脑网络研究。

A100:通过连接矩阵表示的MRI和连接组结构构建大脑网络。

B86:通过矢状面和轴向视图(左)和圆形图(中)显示的MDD和HC分类确定的442个一致功能连接的区域权重和分布。矢状面和轴向视图中100个最具辨别力的一致功能连接(右)

图3:MDD中的预测研究。

A20:汉密尔顿抑郁评定量表(HDRS)得分的预测变化和真实变化之间存在正相关性。电休克治疗(ECT)前HDRS评分变化与膝下前扣带容积呈正相关。ECT组灰质体积(GMV)增加。相关前扣带回容积的空间图。

B19:预测ΔHDRS(汉密尔顿抑郁评分量表)相对于三个场地真实值的散点图,在新墨西哥大学(UNM)中提取六个识别的电休克治疗前(ECT)灰质(GM)区域,并用它们作为两个独立队列的回归器:长岛犹太健康系统(LIJ)和加州大学洛杉矶分校(UCLA)。六个确定的电休克治疗前(ECT)GM感兴趣区域(ROI)在轴向视图中是ΔHDR的预测因子。左侧辅助运动区(SMA)和额上回(SFG)缓解者、非缓解者和健康对照者的纵向GM变化

4.1 针对大样本量和深度学习的多重交叉分类

选择合适的机器学习方法对于分类的准确性至关重要。一些研究人员已经成功地将这种方法的选择应用于其他脑部疾病。

大样本量对于有效的分类性能非常重要,但在单中心点收集大样本通常并不容易。为了解决这个问题,提出了多中心数据共享,允许对精神疾病(如精神分裂症)进行跨中心分类。在跨中心分类中,模型在一个或多个独立中心进行训练,并在不同中心的精神分裂症患者进行测试,并建立具有鲁棒性和泛化性的跨中心分类。Zeng等人提出了一种判别式深度学习方法,使用来自七个地点的734名参与者的功能磁共振成像来学习区分功能连接并实现准确预测。这些研究都进行了组合分类和留一验证,并获得了较好的分类结果。区分的大脑模块被所有中心共享。跨中心分类仍然具有挑战性,但显示出未来的前景。

另一种最先进的机器学习方法是深度学习,它能够从高维数据中提取隐藏信息,一些研究已经表明在神经成像中,深度学习提高了分类精度。例如,Kim等人基于深层神经网络(DNN)采用L1范数控制隐藏层权重的稀疏性对精神分裂症与HC进行全脑静息状态脑功能模式进行分类。Zeng等人首次研究了基于深度学习的精神分裂症患者的跨中心分类。这些方法可以应用到其他神经精神疾病,如MDD,以建立诊断方法,并提供更好的病理生理学分析。
4.2 MDD的多模态磁共振分析

尽管已经发现功能磁共振成像和结构磁共振成像生物标记物与抑郁症相关,还有其他研究表明与DTI的生物标记物的相关性。此外,非成像方法也用于抑郁症。因此,研究多模态MRI与非成像特征如何影响抑郁症的预测模型非常重要。每种MRI模式代表不同的大脑视图,数据融合可以利用每种模式的优势及其相互关系在联合分析中揭示脑部疾病的病理生理学意义。数据融合的最新进展中增加了我们对多模态方法的信心,也提供了解剖和功能信息潜在的意义。通常,多模态研究揭示了基于单一模态的方法可能遗漏的信息。一些研究已经在MDD相关分析中应用了先进的多模态融合方法,如参考多站点典型相关分析+联合独立成分分析(mCCA+jICA)及其方差分析,表现出良好的分类性能。有文献研究,基于SVM分类器对MDD和BD的低频振幅(ALFF)和灰质密度(GM)的融合特征进行训练能够对所识别的特征(例如,GM中的背侧前额叶皮层)实现高精度分类。因此,数据融合结合机器学习是抑郁症分类的一个有前景的方向。


4.3 多重分类和亚型

多重分类可以通过伪多类策略实现,用两种算法区分出成对的抑郁症亚型,或将不同的亚型区分。解决此问题的另一种方法是应用聚类方法将受试者标记为属于特定疾病亚型的聚类。虽然主要神经解剖学区域和神经网络的异常在一类普遍的疾病中很常见,但不同亚型之间的早期紊乱症状有明显的不同,MDD和BD中已经发现了这些亚型。

在精神病学和神经病学中,与有共同症状的疾病进行鉴别诊断也是一个主要挑战。据报道,此类相似症状疾病包括精神分裂症、双相情感障碍、单极情感障碍和情绪障碍。基于任务的功能磁共振成像在区分精神分裂症和双相情感障碍方面取得了良好的效果。其他研究也使用结构磁共振对精神分裂症、双相情感障碍和健康对照进行了高精度分类。因此,抑郁症的多重分类被认为是非常有前景的,但也具有挑战性。

此外,也有一些研究应用机器学习方法来探究不敏感的生物标志物。在抑郁症研究领域,Opel等人采用单变量分析(t检验)和模式识别方法(SVM)对健康对照组、MDD患者、MDD的健康一级亲属和曾遭受童年虐待的健康住院患者的灰质变化进行了研究,以进行组和个人层面的分析。该分类器能够成功地检测出有MDD风险的个体,并在群体水平分析发现的与MDD相关的显著的特定大脑区域的,显示了在未来寻找MDD家族和环境风险因素的潜在能力。
4.4 大数据

通过使用数据集进行训练,可以减少数据异构性问题。在过去几年中,已经启动了多个多中心数据存储库,如PGC、ENIGMA、UK Biobank等,它们都是与包括抑郁症组在内的许多工作组的合作联盟。尽管这些大数据库各自的MDD组包含相对较小的样本量,但也取得了惊人的成就。

例如,2007年以来,MDD组占了PGC的一部分,现在它覆盖了10多万抑郁症患者。PGC MDD小组发表了一篇论文,该论文主要针对MDD基因分离方面的显著挑战,并不断增加样本量和扩大研究范围。ENIGMA MDD工作组包括对全球14个不同国家35个研究样本中约5000名MDD患者和9000名对照者的脑部扫描。其主要目的是通过标准化的图像处理和统计分析协议,识别能够跨中心区分MDD患者和健康对照组的影像学标记。最近,已经开展了一项预测分析竞赛(PAC),这是一项重大抑郁症分类挑战,目标是根据sMRI数据对患有严重抑郁症的患者和健康人进行自动分类。PAC的数据包含759名MDD患者和1033名正常对照的标记sMRI数据,这些数据来自三个不同的中心,免费向公众开放。此外,还提供了三个地点共448人的未标记检测数据。2018年PAC竞赛的获胜者在将MDD与HC进行分类方面取得了65%的准确率。中国另一个正在进行的名为REST-meta-MDD的项目也整合了来自数千个MDD和HC静息状态功能磁共振成像数据的多中心meta分析结果。我们相信,MDD领域可以从类似的机器学习竞赛和项目中受益匪浅。

5、结论

机器学习方法与MRI数据相结合的广泛应用为进一步深化抑郁症个体层面分析和加速临床应用提供了前所未有的机会。将机器学习方法与MRI数据相结合的方法在很大程度上仍处于探索阶段。在不同的研究中,从多个模态中提出的分类模型和特征是不规则的,这种异质性使得挖掘最佳MRI模式、特征和算法变得更加困难。目前,结合机器学习方法和MRI数据治疗抑郁症的趋势越来越受到关注,因为它具有很高的潜力,并提供了更多有关潜在大脑区域的信息。尽管存在许多挑战,但利用多模态数据类型、大脑连接组学、来自不同中心的大数据、亚型分类以及结合临床和遗传信息的方法仍有巨大潜力。

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值