SVM在脑影像数据中的应用

如第一章所述,机器学习中有四种基本方法:有监督学习、无监督学习、半监督学习和强化学习。分类是监督学习的一种形式,它根据训练阶段确定的许多输入输出对将输入数据映射到输出数据。使用分类,与一组示例观察相关的特征可以用来训练一个决策函数,该函数以给定的精度生成类别赋值(即标签labels)。从功能性神经成像数据到推特帖子,这些特征可以是多种多样的。一旦基于这些特征创建了决策函数分类器,它就可以使用之前建立的模式自动将类标签附加到新的、不可见的观察结果上。有许多类型的机器学习算法可以执行分类,如决策树,朴素贝叶斯和深度学习网络。本章回顾支持向量机(SVM)学习算法。支持向量机的强大之处在于它能够以平衡的准确性和再现性学习数据分类模式。虽然偶尔用于回归(见第7章),SVM已成为一种广泛使用的分类工具,具有高度的通用性,扩展到多个数据科学场景,包括大脑疾病研究。

更准确地说,SVM决策函数是一种最优超平面,它根据被称为特征的关于这些观测的信息模式,将属于一类的观测从另一类的观测分离(即分类)。然后,可以使用该超平面来确定不可见数据的最可能标签。用于推断超平面的特征通常不是原始数据;相反,它们通常是在特征选择阶段由某种插值产生的衍生数据,这将在本章后面讨论。根据特征之间的关系,坐标进一步引用特征,形成支持向量。与其他形式的机器学习一样,使用SVM需要平衡两个互补的目标:

(1)最大限度地提高分类器分配给新示例的正确标签的百分比(即优化其准确性)和(2)确保分类器可推广到新数据(即优化其再现性)。前者受所使用特征的信息量(即特征重要性)的限制,而后者则受用于训练模型的独特示例的数量的限制。本文发表在Machine Learning Methods and Applications to Brain Disorders。

6方法描述

6.1概述

幸运的是,SVM在神经科学中的有效使用不需要深入理解其数学基础,但它需要明确的概念理解和应用方面的责任心。训练SVM决策函数的过程相当于识别一个可重复的超平面,使两个类别标签的支持向量之间的距离(即边界)最大化(图6.1)。

图6.1最大限度地分离对应于这里的两个预测类别(重度抑郁症(MDD)和健康对照组(HC)的支持向量的超平面图。

因此,最佳超平面是使类别之间的边界最大化的超平面。支持向量机可以是线性的或非线性的,但通常是前者(非线性支持向量机不在本章中讨论)。线性支持向量机问题的复杂性取决于所使用的特征的数量。例如,在两个特征维度的假设情况下,超平面简单地对应一条线,而在三个特征的情况下,超平面对应一个二维平面。不管支持向量机的复杂程度,也就是说,它的维数分类问题通常是线性的,即使用的超平面是直的,而不是弯曲的。如果我们假设用于支持向量机的特征是以这种方式线性可分的,那么我们可以很容易地在特征图上画一个直线超平面(称为线性分类器),它将感兴趣的类别的两个标签分开。

由此可知,对于线性支持向量机,技术上有两种类型的边距需要最大化。对于硬边界(hard margin),训练中不允许出现错误。虽然硬边界可能是最简单和计算成本最低的,但在实践中,特征的线性可分离性很少如此完美。因此,允许分类器错误分类通常可以获得更大的边界,使新数据具有更大的泛化能力。允许错误分类可以通过使用所谓的软(soft)边界来实现,它依赖于使用由表示的松弛变量(范围是[0 1]),这反过来,当训练数据中的异常值导致超平面出错时,允许分类错误(图6.2)。这样一来,硬边界就变成了软边界的一种特殊情况,其中松弛变量被设置为0。在软边界方法中,还引入了一个惩罚因子C,称为软边界常数,以对松弛变量施加惩罚。该参数用于控制超平面复杂度和训练误差(即正则化)之间的权衡,减少过度拟合的可能性。事实上,有些人认为即使训练数据集是线性可分的,软边界支持向量机也更可取,因为替代方法甚至可以允许单个离群值来确定超平面边界。然而,在高维数据集,如发现在神经影像学特征空间的维数几乎总是超出了研究对象的数量,线性可分性通常可以保证通过特征选择,甚至一些异常值通常是没有威胁的。

图6.2左边的图描述了一个硬边界超平面,其中不允许出现训练错误(即错误分类的支持向量)。右图描绘了一个soft-margin超平面,它允许一定程度的训练误差通过使用松弛变量x。在这两个情节,w表示边界,b表示类别之间的截距和x(i)表示类别标签,即那些红色绿色描述。

图6.3上面的图描述了一个非线性分类问题,用一个曲面超平面可以分离支持向量。

然而,在更困难的分类问题中,最优解可能需要完全弯曲的超平面,而这些超平面是非线性的(图6.3)。当一个分类器的判定边界以某种非线性的方式依赖于数据时(即超越只有少数离群值的软边界情况),该分类器被称为非线性的。在这些情况下,通常需要某种类型的核方法来将支持向量转换为高维输入空间。换句话说,这个额外的步骤是将一组非线性可分的特征转换为一组线性可分的特征。正如第6.3.2节所讨论的,核方法也经常被用作线性支持向量机的降维形式。

6.2.2 SVM分析步骤

支持向量机的分析基本上分为三个阶段:(i)特征选择,(ii)分类器的训练和测试,(iii)性能评价。需要注意的是,这些阶段不是特定于SVM的,存在于大多数机器学习方法中,如第2章所讨论的。

6.2.2.1阶段1-特征选择

训练SVM分类器的前提是将原始训练数据转换为一组特征,这些特征可以作为SVM的输入。大多数特征选择方法都是根据反映特征相关性程度的特定标准对特征进行排序。这些特征选择方法可以分为三种主要类型:(1)嵌入方法,(2)过滤方法和(3)包装方法。

6.2.2.1.1嵌入方法

采用嵌入式方法,将特征选择纳入分类器本身,在实际的SVM训练阶段自动进行选择。要做到这一点,可以使用所谓的内核技巧。事实上,支持向量机在神经成像中的几乎所有应用中都可以发现核函数的使用。核方法不仅可以提高SVM训练的计算效率,而且可以方便地防止神经成像实验中经常出现的病态分类问题的过拟合。在这种情况下,大脑图像的维度通常远远超过可供训练的样本数量。本质上,核函数表示所有示例模式之间的两两相似度量,概括为一个有N*N维的核矩阵,其中N是观察的数量。不是依靠原始的特征向量作为直接输入到SVM分类器,核函数允许人们使用核矩阵训练SVM,在线性和非线性情况下,将原始数据映射到高维特征空间(图6.4)。

图6.4上面是对核技巧的概念性描述,该技巧涉及将原始的输入数据通过具有相应核矩阵的相似函数转换为高维特征空间。

6.2.2.1.2过滤法

滤波方法在分类前进行特征缩减,并在拟合超平面之前计算训练集上的一些相关来去除最不重要的元素。特征缩减的基本原理有三个方面:

(1)它减少了原始数据中的冗余,因此相对于特征的维数,将有更大比例的样本训练数据;

(2)它有助于解释最后的分类器;例如,识别携带与区分类别相关的最多预测信息的数据可以帮助集中未来的工作;

(3)对于一些分类算法,它可以减少计算量,加快模型的训练过程。有许多形式的特征缩减可用于训练SVM分类器的准备工作。最低限度地说,这通常涉及去除方差接近零和显著相关(即多重共线)的特征,因为这些特征在没有增加预测能力的情况下增加了支持向量机的复杂性。

6.2.2.1.3包装法(Wrapper)

使用包装方法,分类器使用来自每次迭代的反馈重复训练,为下一次迭代选择一个特征子集。尽管与嵌入式方法相比,包装方法的计算成本更高,但包装方法可以丢弃这些数据点,当单独考虑这些数据点时,它们在区分类别标签方面做得最差。传统SVM使用的最常见的包装方法是递归特征消除(RFE),它通过交叉验证在越来越小的特征子集中递归排序来选择特征。正如在第2章中讨论的,交叉验证是一种用于评估SVM等预测模型的多重置换技术。它通过迭代地将原始训练数据集划分为新的训练集和测试集,在每次迭代期间重新评估模型性能来工作。

6.2.2.2阶段2-训练和测试分类器

支持向量机是使用我们已经预先知道例子的标签分配(例如,病人和对照组)的例子来训练的。因此,我们可以监督SVM利用这个先验信息来预测新的标签分配。具体来说,SVM将每个被试的特征坐标投影到决策函数定义的直线上;如果投射在正面(y > 0),模式被归类为A类(例如,重度抑郁症[MDD]组)或B类(例如,健康控制[hc]组)。训练支持向量机相当于在决策函数f(x)=w*x+b中设置参数w和b,使超平面以这样一种方式定向,从而产生的点投影最大限度地分离这两个类别的成员。对于线性分类器,权重的绝对值直接反映了某一特征在判别两类时的重要性。重要的是,这个过程假设没有一个类比另一个类包含更多的示例,因为不平衡的类会对分类器性能产生负面影响。虽然有修复不平衡类的方法,但这些都超出了本章的范围。

除了调整核心参数w和b,分类器的准确性也可以关键地取决于超参数值的选择。超参数是那些影响决策函数拟合的变量,在学习(即训练)开始之前设置。虽然SVM通常比其他类型的机器学习算法(如神经网络)拥有更少的超参数,但任何由特征选择产生的自由参数(如k-best特征的数量、软边界常数C等)通常被视为需要调整的超参数。

6.2.2.3阶段3-评估SVM表现

支持向量机的性能通常由它的灵敏度、特异性和准确性来描述(见第2章)。本质上,这些指标提供了关于SVM超平面在区分类别时的准确性和再现性的信息。然而,为了联合评估准确性和再现性,需要进行置换测试,其中,对于多个重新采样的数据集版本,在超参数值的窗口中,使用随机置换的类标签迭代估计超平面。也就是说,通过交叉验证来优化这些指标的性能。虽然交叉验证的置换测试对于训练一个可重复的支持向量机是至关重要的,但模型性能的最终测试是在看不见的数据。尽管理想情况下,人们希望使用尽可能多的可用数据来训练分类器,但这将留下足够的数据来测试最终的SVM模型(即学习的)。因此,除了交叉验证之外,首选的方法是将数据集分割为训练组和测试组作为初始阶段,后者用于模型性能的最终评估。这一步是为了确认分类器确实可以推广到用于训练的数据集之外。

6.2.3神经影像中的SVM

支持向量机在脑疾病研究中的应用大多基于神经成像数据。在神经成像的背景下,SVM通常用于执行多体素模式分析(MVPA),其中使用结构和功能大脑图像的体素集作为输入,以派生分类特征(图6.5)。回顾一下,在神经成像中产生的图像是由称为体素的三维单元组成的,体素的位置可以在欧几里得空间中以(x, y, z)坐标的形式表示。正如我们将看到的,SVM非常适合于MVPA的高维多体素方法,因为它的相对简单性具有较低的过拟合风险(例如,与神经网络相比)。SVM在神经成像中的应用并不局限于MVPA;神经成像数据的衍生度量,如全局性的图论度量,也可以用作支持向量机的输入。

图 6.5 以上是一个概念性的描述多体素模式分析和相应的特征向量特征权重(红色数字)以及这些向量的分类超平面,分类重度抑郁症(MDD)与健康对照组(HC)。

使用MVPA,超平面是基于组成大脑图像的体素阵列估计的。当SVM通过MVPA应用时,数组中表示体素的信号强度形成相应的特征向量,并带有相关的权重(w),描述每个体素对定义超平面的线性决策函数:f(x)=w*x+b的贡献。这些特征进一步与两个类别中的一个(yi =-1或+1)相关联,其中每一个代表被区分类别的标签(例如,HC或抑郁症诊断状态)。虽然支持向量机的传统特征减少策略(如RFE)可以单独有效,但其他几种独特的方法已经被开发出来用于神经成像。这包括根据感兴趣的区域选择特性(ROI),和探照灯方法。

6.3应用于脑部疾病

许多人认为,大脑疾病的诊断和预后在某种程度上是分类问题,因为它们可以用布尔分类标签概念化(例如,符合标准vs不符合标准;治疗反应性vs.治疗无反应性)(美国精神病学协会,2013)。在临床环境中,这些类别可能包括MDD诊断状态、对阿尔茨海默病(AD)的易感性或治疗反应性。回忆一下分类学习方法的主要吸引力在于它们可以预测;一旦生成了分类器,例如SVM,它就可以应用于新个体,预测其类别成员(图6.6)。基于此,支持向量机的分类方法可能为诊断或预后类别标签算法的预测提供一种手段。这些类别预测反过来可以为临床医生提供关于他们的患者的可操作的信息,也许确证决策相关的诊断,治疗计划,甚至早期干预。

图6.6支持向量机(SVM)分类器如何用于重度抑郁症(MDD)诊断的简化概述。

因此,将支持向量机纳入脑障碍研究的更大范围的核心动机是,它们具有增强或有朝一日甚至指导各种脑障碍干预的转化潜力。过去十年产生了大量的机器学习研究,利用支持向量机或类似的分类方法来预测几种类型的大脑疾病的诊断和预后。如第3章所述,这些研究主要分为三类:

(1)通过比较患者与HC患者的神经影像学数据的诊断价值;

(2)通过比较有前驱症状的个体随后出现和没有出现前驱症状的大脑扫描(基线获得),检查神经成像数据预测疾病易感性或发病的潜力的研究;

(3)通过比较治疗前患者的脑扫描结果来检验影像学数据对预后的价值。在接下来的章节中,我们探索支持向量机在临床神经成像研究中的使用,涵盖了大脑障碍的三个谱系:认知障碍,精神病和抑郁症。

6.3.1预测轻度认知障碍转化为阿尔茨海默病

早期SVM研究试图预测脑部疾病的诊断,主要集中在轻度认知障碍(MCI)和可能的阿尔茨海默氏症(PDAT)。鉴于PDAT的破坏性影响及其日益增长的流行率,越来越多的人需要能够预测PDAT前驱症状MCI阶段的方法。这种能力可以促进早期药物干预,改善或稳定认知和行为症状的轻度认知障碍。然而,到目前为止,还没有标准的方法来预测MCI患者中谁会(或不会)发生痴呆,大量的研究已经使用支持向量机来纠正这一问题。例如,使用MVPA训练SVM分类器,预测1年随访时MCI向PDAT转换的准确率略高于概率(分别为60.8%和65.0%)。显然,这两项研究都采用了基于神经解剖学定义的已知受痴呆影响的ROI的特征选择,如大脑的颞叶、后扣带/楔前叶和脑岛区域(图6.7)。Costafreda等人(2011)也同样关注海马体。使用基于海马形态学的全自动预后程序,Costafreda及其同事表明,他们能够预测MCI-PDAT转换,1年随访的准确性为80%。

与以往几乎完全依赖T1/T2加权结构MRI的研究不同,Haller等人(2010)试图利用扩散张量成像预测1年随访时MCI-PDAT转换。他们基于svm的分析使用白质微结构特征得出了98.4%的高分类精度,区分了稳定的MCI患者和可能发展为痴呆的患者。在最近的一项研究中,Cabral, Morgado, Campos Costa和Silveira(2015)使用支持向量机和从定量大脑中葡萄糖代谢的脱氧氧葡萄糖正电子发射断层成像获取的数据来研究MCI疾病分期如何影响诊断性能(图6.8)。作者发现,当时间距离较长时,SVM的性能会下降。然而,如果将疾病分期作为一种补充特征,他们在转换时的准确率为85.1%,在转换前两年的准确率为75%。总的来说,这些研究的结果与灰质和白质结构神经解剖学的观点是一致的,为预测MCI向PDAT的发展提供了非常丰富的信息。

图6.7 Cabral等人2015年使用的SVM分类器对FDG-PET特征重要性的空间表示。在x轴上,基于葡萄糖代谢的SVM特征以9个等间距轴向切片表示。沿着右侧y轴,特征体素强度是根据它们的互信息(MI)来测量的。在此背景下,MI量化了每个特征在多大程度上减少SVM认知障碍分类的不确定性。最终,该研究发现平均互信息(MI)最高的脑区是后扣带回和楔前叶。

图6.8上述图像是由脱氧氧葡萄糖正电子发射断层扫描技术扫描的,它描绘了正常、轻度认知障碍和阿尔茨海默氏症患者的大脑在神经解剖学上的特定代谢差异。

6.3.2精神分裂症的脑诊断

目前,精神分裂症的诊断和严重程度的评估几乎完全是通过临床访谈和自我报告进行的,而没有使用生物标志物。在缺乏更客观的诊断信息的情况下,精神分裂症的诊断因此被证明是特别困难的,特别是当评估由缺乏经验的临床医生进行时。因此,更客观的诊断方法,例如那些基于多模态脑成像的方法,可能成为评估精神分裂症和其他形式精神病的可行补充或替代方法。因此,一些研究测试了支持向量机分类器,希望填补这一空白。

例如,最近的一项研究实现了88.4%的预测准确率,当使用SVM和RFE基于白质和灰质体积测量来分类精神分裂症时。最近的另一项研究发现,支持向量机诊断精神分裂症的表现可以通过使用功能磁共振成像激活模式来改善,在执行一项涉及金钱奖励预期的任务时。使用探照灯MVPA,限制在额、颞、枕和中脑区域,作者能够预测精神分裂症的诊断,对右侧苍白球的最高准确率为93%。与预测MCI-PDAT转换不同,精神分裂症生物标志物固有的多模态可能需要其他形式的特征降维,比如探照灯方法。探照灯的工作原理是选择更少的体素(例如,那些在以体素为中心的球体内的体素),然后在大脑中的所有体素或某些预设范围内重复分析(例如,拟合一个新的超平面)。这个过程的结果是一个多变量信息图,其中每个体素被分配到分类器的性能(图6.9)。探照灯的优势在于,比如RFE,即使在没有关于数据中潜在模式的先验知识的情况下,它也是可行的。

考虑到精神分裂症中结构和功能脑生物标志物最有可能的联合作用,基于svm诊断精神分裂症的一个有前途的途径是使用集合特征选择来聚合多模态神经成像数据。这种方法的核心思想是,跨多种模式的预测信息的组合将有助于提高分类准确性。例如,Cabral等人研究了神经生物学和社会人口学变量对SVM分类性能的联合影响。具体来说,他的团队将支持向量机应用于脑灰质体积和静息态fMRI(一种功能成像方法,参与者被要求安静地躺着,什么都不做)测量精神分裂症和hc患者,然后将支持向量机进一步嵌入到交叉验证的特征选择方案中,从而生成一个复杂的多模态诊断系统。虽然fMRI分类器的准确率(70.5%)略高于结构分类器(69.7%),但sMRI和rsfMRI的组合优于单一MRI模式分类,准确率达到75%。此外,特定的社会人口学和临床变量(例如,年龄、抽象思维困难、情绪退缩和自我报告的阴性症状)被证明是精神分裂症诊断的稳健调节因子,当用于预测神经成像支持向量机的特征权重时,在独立测试集上的分类准确率接近100%。另一项研究类似地将头皮电活动(EEG)数据、sMRI和rsfMRI与SVM分类器相结合,实现了接近100%的预测精度。该研究主要采用了几种序列特征选择方法,包括RFE、t检验过滤和多集合典型相关分析(MCCA)。MCCA用于多模态神经成像数据,可以独特地区分模态公共体素和模态唯一体素模式,这些模式反过来可以用作非常高维的特征输入,从而证明支持向量机的通用性(图6.10)。

图6.9左边的图像描述了探照灯方法,这涉及到使用以每个体素为中心的给定半径球体进行约束特征选择,同时迭代地将超平面重新拟合到来自这些球体的特征。结果是一个多元信息图,如右图所示。

图6.10上图描述了使用多集典型相关分析(MCCA)作为集成特征选择形式的三种不同模式的特征融合,用于使用支持向量机预测精神分裂症诊断。

6.3.3预测抑郁症的治疗反应

虽然支持向量机已被开发,基于神经成像数据用于预测MDD的诊断和发病,但一组较小的研究已寻求预测MDD的治疗结果。例如,早在2009年,就有一项研究将支持向量机应用于sMRI数据来预测抗抑郁药物的反应。作者发现,灰质体积可用于预测治疗反应,准确率达88.9%,但仅在n=37的小样本中。因此,Gong等人(2011)试图在更大的61名接受抗抑郁药物治疗的患者样本中重复这一发现,包括灰质和白质体积的特征。然而,他们发现支持向量机只能预测临床结果(3个月的随访)精确度小于70%。支持向量机应用于fMRI显示了预测MDD治疗反应的类似水平的表现。最近,一项针对80名重度抑郁症患者的治疗研究(随机分配到选择性5 -羟色胺再摄取抑制剂(SSRI)或5 -羟色胺-去甲肾上腺素再摄取抑制剂(SNRI))开发了一个支持向量机,能够使用基于任务的fMRI模式预测抗抑郁药物的成功。fMRI特征基于一种局限于杏仁核的ROI特征选择方法。研究发现,对阈下悲伤面部表情的杏仁核激活(使用fMRI)可以正确地将治疗反应者和无反应者分类,准确率为75%。

目前,支持向量机在预测MDD治疗反应方面的转化效用尚不清楚。事实上,使用支持向量机预测认知障碍和精神病治疗反应的少数现有研究同样显示,与那些用于预测诊断或疾病轨迹的模型相比,支持向量机的表现水平较低。对此的一种解释可能是,SVM在处理特征空间中涉及更高复杂性的分类问题时的性能是有限的。虽然脑部疾病的诊断可能很大程度上取决于个人数据中已经存在的可观察到的神经特征,但治疗的成功可能进一步取决于高度复杂的各种因素,如神经可塑性、治疗依从性和社会支持。

6.4结论

正如我们所看到的,支持向量机非常适合于解决一系列分类问题,如大脑疾病的诊断或预后。然而,读者可能仍然想知道,为什么更高级的分类器,如深度神经网络或决策树学习器,在解决这些问题时,在某种程度上不能优于支持向量机。可能会有一种自然的倾向,认为模型的复杂性意味着模型的优越性,而实际上,在有监督的机器学习中,通常是模型解决手头问题的适当性决定了模型的选择。与其他类型的分类器相比,支持向量机的效力和流行很大程度上源于它的能力,以实现平衡的性能和高精度,是一般化的,即使在特征空间的维数大大超过可供训练的样本的数量情况下。因此,支持向量机被证明是适合研究脑疾病的神经成像,其中的样本量通常比特征空间的维数小得多。除了经济性,SVM还提供了多功能性。正如本章前面的例子所示,支持向量机决策函数可以指定许多不同的Kernel函数,而且大多数软件允许用户指定自定义的Kernel。这种能力有助于使用SVM分类器解决线性分类问题,但没有大量超参数调优的负担。

像所有机器学习算法一样,SVM仍然容易过拟合,特别是由于增加了模型选择偏差的机会。在神经成像的背景下,特征的数量通常超过观测值,因此可能需要额外的步骤,如使用嵌套交叉验证方案,以避免过拟合。尽管支持向量机的性能在不同的应用程序中有所不同,但它已经被证明是一种灵活、高效和方便的临床神经成像研究工具,这使它继续成为分类学习的流行选择。

6.5要点

支持向量机是一种最佳超平面,它根据线性或非线性可分离的关于这些被称为特征的观测的信息模式,将属于一类的观测从另一类分离(即分类)。

与其他类型的分类器相比,支持向量机的强大和流行很大程度上源于它能够实现均衡的性能和高精度,即使在高维情况下也具有通用性。

SVM非常适合于解决一系列分类问题,如AD、精神分裂症和抑郁症等脑部疾病的诊断和预后。当用于神经成像分析时,SVM通常用于执行MVPA,其中使用结构和功能大脑图像的体素集作为输入,以派生分类特征。

  • 0
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值