基于集成学习方法结合影像组学特征的恶性脑肿瘤检测

研究背景及目的:脑癌是最具侵袭性的肿瘤之一:70%被诊断患有这种恶性肿瘤的患者将无法存活。对其进行早发现是提高生存率的基础。根据脑细胞的正常或异常程度,脑癌可分为四个不同级别(即i、II、III和IV)。以下工作旨在通过分析大脑磁共振图像来鉴别不同级别的脑癌。

方法:本文提出了一种集成学习的方法鉴别不同级别肿瘤。基于集成学习结合MRI图像能够使用非入侵的方式鉴别不同级别的脑癌。所考虑的影像组学特征分为五组:一阶、形状、灰度共生矩阵、灰度游程矩阵和灰度大小区域矩阵。并通过假设检验、决策边界、性能分析和校准图来评估特征的有效性,从而为集成学习模型选择最佳分类器。 结果:我们使用两个随机数据集中的111个、205个脑磁共振来评估所提出的方法。对于良性I级和II、III和IV级恶性脑癌的检测,获得了99%的准确率。

结论:实验结果证实,用该集成学习方法基于磁共振图像的脑癌分级检测结果优于当前最先进的方法。本文发表在Computer Methods and Programs in Biomedicine杂志。

引言

脑癌是指大脑中或大脑结构周围生长大量异常细胞。脑瘤是20岁以下儿童实体癌死亡的主要原因,超过了急性淋巴细胞白血病。在20-39岁的年轻人中,它们是导致实体癌死亡的第三大原因。每年有超过5000人死于脑瘤,而英国目前估计至少有1020名儿童和成人患有脑癌。脑癌会使平均预期寿命缩短20年,只有19%的成年人在确诊癌症后能存活五年。

根据2018年美国癌症协会的数据,约有23880人被诊断患有恶性脑或脊髓肿瘤,约70%诊断为恶性肿瘤患者无法存活。脑癌病变位于运动和情绪的控制中心:这就是脑癌会对患者的身体和认知能力产生重大影响的原因。

星形细胞瘤是脑胶质瘤中最常见的原发性脑肿瘤。它们生长于大脑中一种叫做星形胶质细胞的细胞,这是大脑中最丰富的细胞。它们支持和保护神经,并帮助它们之间传递信息。因此,星形胶质细胞在大脑处理信息方面至关重要。但星形细胞瘤的确切病因尚不清楚。

根据世界卫生组织的分级系统,星形细胞瘤根据细胞的正常或异常程度分为低到高级别(分别为I、II、III和IV级)。

低级别星形细胞瘤通常局限于局部,生长缓慢。高级别星形细胞瘤生长速度快,需要不同的治疗过程。大多数儿童星形细胞瘤是低级的。在成年人中,大多数是高级的。

间变性星形细胞瘤为III级星形细胞瘤。这些肿瘤是由星形胶质细胞形成的。星形胶质细胞和类似细胞形成组织,包围并保护大脑和脊髓内的其他神经细胞,这些细胞被称为胶质细胞,它们形成的组织被称为胶质组织。由胶质炎引起的肿瘤,包括星形细胞瘤,统称为胶质瘤。间变性星形细胞瘤的症状因肿瘤的具体位置和大小而异。

星形细胞瘤IV级是所谓的胶质母细胞瘤,是一种肿瘤类型,其中大部分肿瘤细胞都在不断繁殖和分裂。胶质母细胞瘤是一种浸润性肿瘤,可侵入大脑附近区域。它们有时也会通过连接纤维传播到大脑的另一侧。这些症状可能包括头痛、性格改变、恶心和类似中风的症状。这可能会发展为无意识。它是最具侵袭性的,是一种非常浸润性的脑癌,迅速扩散到大脑的其他部位,是成年人最常见的恶性脑瘤。

一般来说,脑肿瘤的级别是指细胞在显微镜下的外观:

  • I级:组织是良性的,细胞看起来几乎像正常的脑细胞,生长缓慢
  • II级:该组织是恶性的,与I级癌症中的细胞相比,这些细胞看起来不像正常细胞;
  • III级:恶性组织的细胞看起来与正常细胞非常不同,异常细胞正在活跃生长(间变性);
  • IV级:恶性组织中的细胞看起来异常程度最高,且生长速度较快。

低级别肿瘤(I级和II级)的细胞看起来更正常,通常比来自高级别肿瘤(III级和IV级)的细胞生长更慢。随着时间的推移,低级别肿瘤可能会变成高级别肿瘤:高级别肿瘤的转变在成年人中发生的频率比儿童高。

最近,影像组学成为一个新兴的研究领域,能够发现肉眼无法识别的疾病特征。影像组学的核心假设是,机器学习算法能够量化疾病的特征,从而为个性化医疗提供有价值的信息。因此,人们对这一领域越来越感兴趣,从医学图像(例如,从MRI,即医学磁共振成像)中提取定量特征并利用这些影像组学特征,探究肉眼无法识别的疾病特征。影像组学假设能从疾病中识别医学图像显著的特征,从而预测各种疾病的预后和治疗反应。

综上所述,本文提出了一种检测MRI图像特征是否与大脑肿瘤相关的方法。具体而言,该方法能够区分I、II、III和IV级脑癌,即良性(I级)和不同级别的恶性肿瘤(II、III和IV级)。

我们旨在开发一种集成学习器的方法:通过假设测试确定最显著的特征,然后评估决策边界、模型的性能以及与十种不同监督算法相关的校准图,以确定它们在设计的集成中的优先级。

我们提出的集成学习架构的基本原理,如文献所示,与通过单一模型分类获得的结果相比,多个分类器的组合可以达到更好的性能。我们列举了该研究的创新之处:

  • 检测最佳分类器以组成集成学习架构,克服使用单个分类器构建的模型所获得的性能。
  • 利用非侵入性影像组学特征检测I、II、III和IV级脑癌。

此外,本文的进一步研究如下:

  • 三组来自多个机构的真实数据集证实了所提出方法的有效性,对于良性I级和II、III和IV恶性脑癌等级检测的准确率达到99%;
  • 比较最先进的方法,突出我们的方法的有效性。比较表明,我们的方法,非侵入性地从磁共振图像获得显著性的特征,优于现有的方法。

论文的内容如下:下一节研究近年来机器学习在检测脑肿瘤中的应用,第3节介绍了集成方法,第4节介绍了我们所做实验的结果,第5节讨论了研究的局限性,最后,第6节概述了结论和未来的工作。

2相关工作

在这一节中,我们回顾了当前与使用机器学习技术检测脑癌相关的最新文献。

Isselmou等提出了一种通过分析磁共振成像来区分良性或恶性脑肿瘤的方法,准确率在95%左右。

有研究考虑了多层感知器(MLP)和朴素贝叶斯分类算法,通过纹理特征区分恶性和良性脑肿瘤。数据集的66%划分用于训练集,其余实例用于测试。搜集212个脑磁共振成像,两种模型对于恶性和良性脑癌的准确率分别为98.6%(MLP)和91.6%(Naive Bayes)。

Ramtek et alius等采用最近邻分类器的分类算法,基于从正常和恶性磁共振成像中提取的统计纹理特征,获得了80%的准确率。

Babu和Varadarajan基于支持向量机算法,研究了灰度共生特征区分恶性和良性脑癌磁共振成像的能力。

Gadpayleand等利用纹理特征结合神经网络和最近邻模型,对正常组和肿瘤组的大脑磁共振成像进行鉴别。结果最近邻分类的准确率为70%,神经网络分类器的准确率为72.5%。

有文献还提出了一种基于遗传算法和支持向量机的混合方法。所考虑的特征包括统计、小波和频率变换,平均达到的准确率为83.22%(介于79%和87%之间)。

Chaddad等人提出采用高斯混合模型特征,鉴别脑磁共振成像的良性肿瘤和胶质母细胞瘤。

有研究人员考虑了与2D小波变换和空间灰度相关矩阵相关的特征集,采用支持向量机监督机器学习算法区分83名脑癌患者和健康患者。

Ghosh和Bandyopadhay等考虑使用模糊C均值聚类算法来检测45名患者的MRI区域分析是否与脑癌有关。

有研究讨论了一种基于神经网络的方法,该方法使用二维离散小波变换特征。结果表明他们的网络能够更好地鉴别正常和恶性脑肿瘤,总体准确率为0.83。

有研究开发了一个五层卷积神经网络,对健康和病变的大脑磁共振成像进行分类。具体来说,脑肿瘤的病变图像也分为低级别和高级别,准确度为0.91。

还有研究考虑了一种利用纹理和形状特征的支持向量机模型,以区分低级别和高级别的脑癌磁共振成像。

Eldahshan等人提出了一个检测恶性脑癌和良性脑癌的框架。他们基于离散小波变换的特征,应用主成分分析来降低特征向量的维数,然后他们将前馈反向传播神经网络用于MRI分类。

有研究应用多层前馈神经网络,该网络具有自动贝叶斯正则化功能,可以对脑肿瘤磁共振成像和非脑肿瘤磁共振成像进行分类。

有研究考虑了基于离散小波变换的特征,构建了两个分类器:第一个基于前馈-反向传播人工神经网络,第二个基于k近邻。这些模型的目的是将患者磁共振成像分为良性或恶性脑肿瘤。

Gurusamy和Subramaniam提出了几种机器学习分类器之间的比较,目的是选择最佳分类器来区分良性和恶性脑癌磁共振成像。它们考虑了支持向量机、神经网络、朴素贝叶斯和k近邻分类算法。从他们的结果来看,支持向量机是检测MRI是否与脑癌相关的最佳模型。

有研究考虑了60个特征:22个形状类别,5个强度,33个纹理。在使用主成分分析算法选择最佳特征后,使用支持向量机建立的模型在恶性脑癌MRI检测中的精度达到0.98。

研究人员在[32]中也应用了支持向量机,检测癌性或非癌性脑磁共振成像。

作者在[33]中提出了一种基于36种纹理特征的概率神经网络。作者的目的是区分转移性肿瘤和原发性肿瘤。

有研究人员基于支持向量机算法,用小波熵和Hu不变矩建立模型进行预测。

有研究人员用AdaBoost分类器构建的机器学习模型在预测脑转移和多形性胶质母细胞瘤脑癌方面的有效性,其分类性能达到0.71。

有研究基于模糊认知图来建立一个模型来区分低级别和高级别的脑癌。对100名患者获得0.92的准确度。

有研究基于卷积神经网络,区分I、II、III和IV级分析中的磁共振成像,采用VGG-19 CNN结构来进行脑肿瘤分级。获得了0.90的精度。

有研究结合44个离散小波特征,采用主成分分析中选出最佳特征:对比度、同质性、均值、和方差和自相关范围。基于遗传算法和支持向量机,对脑肿瘤患者进行预测。

有研究人员提出了基于机器学习将脑癌病例分为两种可能的诊断,即多形性胶质母细胞瘤和低级别胶质瘤,准确度为93.1%。

有研究区分了胶质母细胞瘤和弥散低级别胶质瘤。基于逻辑回归算法模型,用14个文本特征作为输入模型输入。有研究人员提出检测微血管增生(即组织中的血管)的方法,这是脑胶质瘤中高级别肿瘤的症状。

[42]研究了脑膜瘤的分类,将获得的两个矩阵作为特征,其中一个包含整个细胞的边界,另一个包含一些细胞的边界。这些特征作为支持向量机的模型的输入实现脑膜瘤的分类。

[43]中的研究人员通过建立支持向量机模型,基于一阶和二阶纹理特征实现了良恶性脑癌的检测。

Cui等人利用机器学习技术来检测高级别和低级别的脑癌。对50例患者的磁共振成像进行评估,其预测准确率为0.92。

[45]中的研究人员基于神经网络检测MRI图像影像组学特征是否与脑癌有关。考虑到三种类型的脑癌,平均识别率为78%。他们的数据集由30个磁共振图像组成。

Badran等人使用神经网络算法将MRI标记为良性或恶性肿瘤。基于canny边缘检测算法产生15–16%的不准确率。

根据Xuan等人从脑磁共振成像中提取纹理、对称性和强度等特征。基于AdaBoost算法将MR图像分为正常和异常,其准确率为96.82%。 也有研究基于神经网络对大脑磁共振成像进行分类:达到了96.33%的准确率。

有研究基于深度学习的方法进行脑肿瘤分类。首先基于模糊C均值对磁共振成像进行分割,然后使用离散小波变换提取一组特征。设计的深层神经网络由7个隐藏层组成。在对正常脑磁共振成像和恶性脑磁共振成像进行分类时,获得了相当于0.97的精确度和召回率。

有研究中的研究人员讨论了一种利用由7个隐藏层组成的卷积神经网络检测脑癌分级的方法,在脑癌分级检测中获得了相当于0.86的准确度。 Zia等中研究了同样的问题,使用离散小波变换进行特征提取,主成分分析进行特征选择,支持向量机进行分类。 Cheng等人考虑强度直方图、灰度共生矩阵特征,用于脑癌分级检测,达到的准确度等于0.91。

表1比较了脑癌检测中最先进的方法:在“患者”列中,我们评估样本患者的数量,在“准确性”列中指出了获得的模型性能,目的专栏确定了该方法的最终目的(对于benign/malign,我们指的是一种旨在区分良性和恶性脑癌的方法,对于L/H,我们指的是一种旨在区分低级别和高级别脑癌的方法),对于I/II/III/IV,我们指的是一种脑癌级别检测的方法)。

在“数据集”一栏中,我们指出了与脑癌分级检测相关的工作,并对相同的数据集进行了验证(计算相同数据集达到相同的性能用√表示)。表1的最后一行显示了有关数据集的详细信息,以及通过所提出的方法获得的精度。

正如目前最先进的分析方法所显示的那样,大多数讨论的工作通常集中在恶性或良性肿瘤的磁共振成像的区分上:几乎没有人尝试区分四种脑癌分级。这些脑癌等级识别的工作的主要特点如下:(i)我们的工作旨在基于影像组学特征构建的集成学习器检测脑癌不同等级;(ii)与现有的方法相比,其表现优于现有的方法。

表1,近年来先进的研究方法

3方法

在本节中,我们描述了设计集成学习器架构的方法,旨在利用影像组学特征检测I、II、III和IV级脑癌。我们首先介绍了所提出方法的主要架构,然后分别描述了所考虑的影像组学特征,随后介绍了假设检验,并详细讨论了集成学习方法。

3.1主要架构

图1描绘了方法的主要架构。正如导言中所述,在本文中,提出了一种高效集成学习器的方法,旨在区分I型、II型、III型和IV型脑癌。

图1,所提出方法的架构图

集成方法考虑了几种机器学习算法,目的是与单独使用某种算法相比,集成算法能够获得更好的预测性能。监督学习算法执行在假设空间中搜索的任务,以找到合适的假设,从而对特定问题做出良好的预测。即使假设空间包含非常适合某个特定问题的假设,也可能很难找到一个完美的假设。集合将多个假设结合起来,以形成更好的假设。

我们的分析从一组脑部磁共振成像开始。从磁共振成像中,我们提取一组扩展的影像组学特征(图1中的影像组学特征提取块)。影像组学特征指的是可直接从非侵入性磁共振图像中提取的特征。从这个扩展的影像组学特征集中,我们通过测试选择最佳特征(图1中的影像组学特征选择)。对于特征选择,我们考虑假设检验。假设检验允许验证一个给定的假设是否在多大程度上得到了经验证据的支持,最终目标是确定某个假设在数据总体上的“真”或“假”。假设检验是基于对统计样本分布的研究,称为统计检验,是根据样本数据计算出来的。在处理样本数据之前,定义了一项规则,用于拒绝或不拒绝无效假设。这些测试结果通过所谓的p-水平来解释,即当零假设为真时,统计分析等于或超过实际观察结果的概率。在建模时,只考虑通过假设检验的特征。由影像组学特征选择产生的影像组学特征集作为一系列n个分类器(图1中的分类器C1、分类器C2、分类器C3、分类器Nth)的输入特征:每个分类器将产生一个模型(图1中的模型M1、模型M2、模型M3、模型Nth)。显然,每个分类器都会考虑不同的算法来构建模型。此外,考虑到我们采用有监督的机器学习分类,分类器也输入了病理学家提供的脑癌等级(病理学家报告见图1)。分类器选择块的目的是选择最好的分类器组成集成学习器。对于该任务,考虑了决策边界和校准图分析,评估分类器的性能。决策边界是表示分类预测的区域空间的图形表示,以评估分类器是否建立了能够覆盖最可能的空间实例的模型。单模型性能分析是评估是否能够覆盖最广泛的空间区域(由决策边界分析确定),获得更高预测性能的模型。最后,为了了解分类器是否得到了很好的校准,需要考虑校准图来评估。校准图显示了事件的观测频率与其预测概率的函数关系。对角线表示完全可靠。对于经过完美校准的预测,校准图中的曲线应尽可能接近对角线。一旦确定了最佳分类器,这些分类器的预测将被视为投票算法的输入,旨在选择最终预测结果(图1中的投票)。最终的预测结果存储在集合模型中。

因此,为了检测脑肿瘤等级并评估模型(图1中脑癌MRI),获得最佳影像组学特征(图1中的影像组学特征提取),并根据显著相关特征预测脑癌等级。

3.2影像组学特征

影像组学特征可以揭示肉眼无法识别的疾病特征。影像组学背后的理念是,疾病的成像特征可能有助于预测各种疾病的预后和治疗反应,从而为个性化治疗提供有价值的信息。

影像组学特征包括:体积、形状、表面积、密度和强度,以及质地、肿瘤位置、与周围组织的关系等。在本文中,我们探讨了属于五个不同类别的71种不同影像组学特征在脑癌分级预测中的有效性:

一阶特征:该类别描述了ROI内体素强度的分布(即,在本研究中,与癌症相关的MRI的感兴趣区域);

形状:该特征类别包括ROI的三维大小和形状。这些特征独立于ROI中的灰度强度分布,因此仅在非衍生图像和掩模上计算;

灰度共生矩阵(GLCM):该特征代表像素的空间关系,即灰度空间相关性矩阵。GLCM函数通过计算具有特定值和特定空间关系的像素对在图像中出现的频率来表征图像的纹理,然后从该矩阵中提取统计度量;

灰度游程长度矩阵(GLRLM):灰度游程长度矩阵(GLRLM)给出了每个灰度的均匀游程大小。它量化了灰度级游程,定义为具有相同灰度值的连续像素的像素数个数;

灰度大小区域矩阵(GLSZM):属于这一类的特征量化了图像中的灰度区域。灰度区域定义为相同灰度强度的连接体素的数量。根据无穷范数,如果距离为1,则视为体素连通。这些特征的数学定义与成像模式无关。对更多细节感兴趣的读者可以参考[62-66]。此外,GLCM影像组学特征的详细描述见[64,67,68]。

附录中的表7显示了所有71种影像组学特征。

3.3.假设检验

关于假设测试,需要测试的无效假设为:

H0:“不同级别的脑肿瘤磁共振成像对于所考虑的影像组学特征具有相似的值。”。

用瓦尔德·沃尔福威茨(Wald-Wolfowitz,p-水平固定为0.05)和曼恩-惠特尼(Mann-Whitney,p-水平固定为0.05)检验无效假设。为了加强结论的有效性,我们选择了两种不同的检验。

这些检验的目的是确定显著性水平,即得出错误结论的风险(概率):我们将显著性水平设置为0.05,这意味着我们接受10次中有5次犯错。

只有通过假设检验的特征才会输入到集成学习算法的训练。

3.4集成学习算法设计

在本节中,我们将介绍本研究中考虑的集成学习体系结构。基本上,集成学习考虑了多种学习算法,旨在获得比单独使用任何组合学习算法都更好的预测性能。图2中描述了所考虑的集成学习方法

我们对10种不同的分类器进行了测试,这些分类器选自最常用的机器学习算法,通常用于分类任务。

我们详细介绍了以下算法:

近邻:近邻算法属于所谓的惰性学习方法,函数只在局部近似。因为分析中的实例是通过其相邻的多数投票进行分类的,实例被分配到其k个最近邻中的类中。该算法是所有机器学习算法中最简单的算法之一;

线性支持向量机:对于每个给定的输入,线性支持向量机分类器可以预测输入属于哪个类。SVM模型是将示例表示为空间中的点,并进行映射,以便将类别划分为一个尽可能宽的超平面。然后,新的样本被映射到同一个空间中,并根据它们落在差距的哪一侧被预测为属于一个类别;

径向基函数支持向量机:该算法用径向基函数(RBF)核表示非线性SVM分类器。内核基本上是一种相似性度量,反映在被分析的样本之间的相似性。RBF是基于单变量函数(即RBF)的线性组合来近似多变量函数的方法;

高斯过程:该分类算法基于拉普拉斯近似:拉普拉斯近似是一种近似贝叶斯参数估计和贝叶斯模型比较的方法。C4.5:该算法基于信息熵的概念,生成一棵决策树,每个节点根据信息的增益进行分类。最大信息增益用作分类准则;

随机森林:构建的“森林”是决策树的集合,构建多个决策树并将它们合并在一起以获得更准确、更稳定的预测模型;

神经网络:该算法基于人类神经网络体系结构启发提出的网络结构。它由输入层中的多个节点组成(等于输入数据集中的像素数量)。每个输入节点乘以一个权重(通常使用一些随机初始化值),然后将结果相加,将总和传递给激活函数;

二次判别分析:二次分类器通过二次曲面将对象类中的实例分离。在二次判别分析(QDA)中,假设每一类的测量值都是正态分布的;

朴素贝叶斯:这个方法代表了一类概率分类器。具体来说,所考虑的朴素贝叶斯是基于高斯分布的。在处理连续数据时,假设与每个类相关的连续数值符合高斯分布;

逻辑回归:这种分类算法基于逻辑函数,也称为sigmoid函数:一条曲线,可以将任何实数映射为0到1之间的值。集成方法的第二步是最佳分类器选择。

为了从10个分类器中选择最佳模型,我们考虑:(i)决策边界,(ii)通过单个模型获得的性能,(iii)校准图。

决策边界是一个超曲面,将未定义的向量空间划分为两个集合,每个集合对应一个类别进行预测。分类器将决策边界一侧的所有点分类为一个类别,另一侧的所有点分类为另一个类。我们以图形方式显示了每种分类算法的决策边界。决策边界分析在这项任务中很有用,因为它能够突出模型无法预测的区域。

为了更明确地评估分类器的性能,我们考虑了单个分类器执行分类的结果:在输出预测结果中选择最佳性能的分类器。一旦选择了能够覆盖实例最大数量的点并获得最佳性能结果的分类器,我们通过检查可靠性图来确认选择的最佳分类器。

校准图描述了与事件相关的概率预测的性能:预测概率根据观察到的相对频率绘制。理想情况下,分类器的校准图趋势应尽可能接近完美校准的分类器。与性能最差的分类器相比,获得最佳性能的分类器应该更接近完美校准的分类器:我们考虑可靠性图,以确认从边界分析和性能评估中选择的分类器的有效性。

图2所示的集成方法的第三步由集成学习表示。

为了在最佳的分类器提供的几个预测结果之间选择最终预测结果,采用集成分类器投票的方法。

接下来,我们将解释投票算法的工作原理:每个分类器分别计算其概率,并将其呈现给集成分类器,然后投票分类器对其进行平均,并输出概率最高的类(这就是所谓的软投票)。例如,对于属于两个不同分类器的两个预测,第一个分类器预测概率等于a的A类,而第二个分类器预测概率等于b的B类。若a>b,投票分类算法决定是否将预测的类别作为a输出,否则作为b输出。与软投票相反的是硬投票:在硬投票中,集成学习确定分类器中最大精度的预测结果,并将此预测视为最终预测(基本上大多数都有效)。让我们举一个例子:假设三个分类器的输出概率:第一个分类器为0.45,第二个分类器为0.45,第三个分类器为0.90。硬投票将计算出1/3的分数(1票赞成,大于0.5,2票反对,概率低于0.5),因此最终预测为“负面”。软投票计算概率的平均值为0.6,将被分析的实例标记为“正”:(0.45+0.45+0.90)/3。

此外,投票算法可以选择性地考虑几个权重作为参数(每个权重与集成学习中涉及的每个算法相关):权重越高,投票算法的结果占比越大。例如,考虑权重分别为1、1和6的C1、C2和C3分类器,这意味着与分配给C1和C2分类器的概率相比,C3分类器的预测概率计数为6倍。即使选择了偶数个分类器,并且有一半分类器为实例分配了与另一半相反的预测,这也是有用的。让我们考虑一个详细的例子,以更好地理解软加权投票集成算法如何输出最终预测(图2中集成预测的步骤),我们考虑三个分类器:c1(权重w1等于2)、c2(权重w2等于1)和c3(权重w3等于1)。假设一个二进制分类任务,其中每个实例被标记为属于L1或L2类,并且预测概率为,其中c∈{1,2,3}表示第c个分类器和l∈{1,2}在第l个标签上,概率计算如下:

考虑一个与分析中的实例相关的真实示例,然后计算最终加权平均概率,如下所示:

其中,L1类的最终加权平均概率为0.425((0.4+0.4+0.7+0.2)/4),L2类的最终加权平均概率为0.575((0.6+0.6+0.3+0.8)/4):投票集成分类器将把分析中的实例标记为属于L2类。 为了为集成算法中涉及的分类器选择权重,有必要在各种分类器中选择优先级。我们考虑了这方面的可靠性图:事实上,从可靠性图来看,预计几个分类显示出不同的趋势。我们将最高权重分配给最接近理想分类器的分类器。

3.5单一模式分类

如前一小节所讨论的,我们选择最佳分类算法,考虑边界分析和由分类器构建的模型的性能。

建立模型需要两个阶段(无论使用何种算法):训练阶段(如图3所示)和测试阶段(如图4所示)。

本研究中考虑的分类器是受监督的:即,我们输入机器学习算法,其中包含一组由MRI实例样本(即,图3中的脑癌医学成像数据档案)和一个标签(即,i、II、III或IV),每个MRI标签由具有脑癌等级的医学报告(即,图3中的医学报告)提供。

图4,分类器测试阶段示意图

我们从标注的磁共振成像中提取影像组学特征(即图3中的影像组学特征),在清洗过程后,在特征向量(即图3中的数据清洗/影像组学特征向量)中解析特征,该清洗过程旨在仅考虑从分析的磁共振成像中成功收集的显著的影像组学特征(以避免引入噪声)。对每个分类器输入影像组学特征向量(即图3中的机器学习分类),其目的是从所筛选的影像组学特征向量数据集中构建模型(即图3中的模型)。一旦建立了模型,测试阶段(如图4所示)旨在评估其性能。

我们使用一组未知I、II、III和IV级的脑癌磁共振成像评估所建模型的有效性。从这些磁共振成像中,提取影像组学特征(图4中的影像组学特征步骤)和相应的影像组学特征向量(图4中的数据清理/影像组学特征向量):这两个步骤与我们在训练阶段讨论的步骤相同。不同之处在于,在测试阶段,模型(图4中的建模步骤)的输入是未标记的特征向量,输出MRI标签(图4中的预测步骤)。我们建立的模型是多类的,即每个MRI标签被认为属于以下类别之一:I、II、III和IV级脑癌。

4验证本节介绍了验证结果

为了评估所提出的方法,考虑了三种不同的脑部MRI数据集:

第一个(即数据集D1)包含110020个不同的磁共振图像,包括分割后的ROI和医疗报告(属于130名不同患者)分别标记为I(37名患者)、II(40名患者)、III(25名患者)或IV(28名患者)级脑癌。数据来自多个机构,第一个是杰斐逊大学医院-托马斯·杰斐逊大学,这是一个多州非营利医疗系统,其旗舰医院是位于费城中心城的托马斯·杰斐逊大学医院;第二个是亨利·福特医院(HFH),一家三级医疗医院,位于密歇根州底特律新中心区西部边缘的教育和研究中心。该数据集是免费的,可用于研究。

第二个数据集(即数据集D2)来自多节段脑肿瘤分割挑战2019 10(BraTS 2019)。它包含低级别和高级别的脑癌磁共振图像,详细描述了259名高级别患者和76名低级别患者共1005个磁共振成像。

第三个数据集(即数据集D3)是从Radiopaedia存储库中收集的:它由121个标记有四个不同等级的磁共振成像组成:尤其是Radiopaedia数据集包含36个i级脑肿瘤磁共振成像、32个II级磁共振成像、25个III级磁共振成像和28个IV级磁共振成像。

图5分别显示了I、II、II和IV脑癌的四个脑磁共振成像的示例。

我们考虑免费的存储库,目的是使实验可复制。我们考虑了数据D1,用于通过假设检验选择最佳特征和用于分类器训练、验证和评估,数据集D2和D3用于测试。

图5,不同等级的脑肿瘤磁共振图像

对于每个分类,我们将D1数据集分为三个部分:训练、验证和测试:50%的数据集用于训练(54990个磁共振成像:15651个I级磁共振成像、16920个II级磁共振成像、10575个III级磁共振成像和11844个IV级磁共振成像),25%(27492个总磁共振成像:7824个I级磁共振成像、8460个II级磁共振成像、5286个III

磁共振成像和5922个IV级磁共振成像)被考虑用于第一次评估,最后25%(27538个磁共振成像:7836个I级磁共振成像、8471个II级磁共振成像、5298个III级磁共振成像和5933个IV级磁共振成像)被用于测试阶段。测试阶段考虑了D2和D3数据集:D2共包含28543个磁共振成像,而D3共包含121个磁共振成像,共测试28664个磁共振成像。为了构建稳健的训练数据集的模型,验证数据集用于评估所构建的模型(并为加权投票提取权重),而测试数据集用于评估集成学习分类器。

为了从磁共振成像中提取影像组学特征,我们开发了一个调用pyradiomics的python脚本,这是一个开源python包,用于从医学成像中提取影像组学特征。

4.1假设检验

假设检验的目的是通过统计分析评估这些特征在属于I、II、III和IV级脑癌的不同影像组学特征人群中是否呈现差异性分布。我们假设当两个已执行的测试都拒绝了无效假设时,结果是有效的。

表2显示了零假设H 0检验的结果。

Wald-Wolfowitz测试未通过特征3、4、5、6、23、34、35、36、37、38、39、45、46、47、57和70,而Mann-Whitney测试未通过特征3、4、5、6、13、23、34、35、36、37、38、39、45、46、47、57、63和70。综上所述,考虑到我们假设当两个执行的测试都拒绝了零假设时,结果是有效的,未通过零假设H0测试的特征如下:1, 2, 7, 8, 9, 10, 11, 12, 14, 15, 16, 17, 18, 19, 20, 21, 22, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 40, 41, 42, 43, 44, 4 8, 4 9, 50, 51, 52, 53, 54, 55, 56, 58, 59, 60, 61, 62, 64, 65, 66, 67, 68, 69和71等。研究中71个特征中有53个具有显著性。在下文中,将考虑这53个特征来构建模型(即通过假设检验的特征集)。

4.2集成学习架构结果

在本节中,我们描述了从上一节中介绍的研究设计中获得的集成架构:与图2所示的集成方法一致,我们首先展示了从单个模型中获得的结果,然后讨论了集成方法的性能。如第3节所述,为了突出显示能够覆盖实例样本的最可能空间的模型,考虑图6所示的决策边界。

图6,不同模型的三级和四级脑肿瘤的决策界限

为了获得更好的图形效果,我们显示了与两个特征(即Max-imum2DDiameterColumn和Maximum2DDiameterRow)和两个类别(最具侵袭性的类别,即III级和IV级脑肿瘤)相关的决策边界。对于其他特征和其他等级,也可以进行类似的考虑。与III级脑癌相关的实例用红色点表示,而蓝色点与IV级脑癌(最具侵袭性)相关。具有相同颜色(即红色或蓝色)的区域代表位置分别属于III级或IV级的空间。白色区域与模型无法输出预测的区域相关,而颜色较浅的区域则表示模型能够执行预测但百分比较低的区域。从决策边界来看,具有最大空间覆盖的模型似乎是由最近邻域、C4.5、随机森林和神经网络算法建立的模型。例如,与C 4.5相关的决策边界分析没有显示白色区域,并且它显示出一个非常小的空间,颜色不那么强烈,这表明样本通常是以高概率预测。神经网络模型表现出非常有限的白色区域(在红色区域和蓝色区域之间的边界),最近邻模型也表现出类似的现象。随机森林模型显示了一个小的白色区域(尽管比上述算法稍微扩展)。至于剩下的算法,白色区域得到了更大的扩展:例如,朴素贝叶斯模型展示了一个圆形白色区域和一个略微扩展的低概率区域,逻辑模型显示了一个扩展的白色区域(其中也有几个属于III级脑癌的病例,因此这些病例不能从该模型中正确分类)。QDA模型显示了一个扩展的白色区域,考虑因素与逻辑模型类似。线性SVM和RBF SVM模型似乎不显示白色区域,但这些模型的低概率区域扩展最广,而对于高斯过程算法,从决策边界来看,该模型似乎无法预测与数据集中使用的实例略有不同的实例:白色区域相当广,并且唯一有颜色的区域是样本下降的区域。 为了确认决策边界分析的结果,我们分析了单模型的性能。为了评估分类性能,考虑了六个常用的指标[53]:假阳性率、精确度、召回率、F度量、准确度和ROC面积。 我们计算了每个分类器的指标,结果如表3所示。

表3 各个分类器指标

确定了决策边界分析结果:最近邻(I级的精确度从0.951到IV级的0.935,召回率从I级的0.948到IV级的0.948),C4.5(I级的精确度从0.951到IV级的0.944,召回率从I级的0.953到IV级的0.961),随机森林(I级的精度为0.952,IV级的精度为0.944,召回率为0.951,IV级的召回率为0.958)和神经网络(I级的精度为0.941,IV级的召回率为0.915,I级的召回率为0.943,IV级的召回率为0.963)以上几种算法的性能最好。其余算法的平均精度和召回率较低。我们确认这四种算法是集成学习模型权重占比最大的算法模型。

图7显示了最近邻、C4.5、随机森林和神经网络算法的校准图。

C4.5显示出与完全校准的分类器最接近的趋势,第二个是随机森林,而神经网络和最近邻趋势与完全校准的分类器不太接近,但与受抑制的最近邻模型相比,神经网络趋势似乎稍好。

图7,C4.5、随机森林、神经网络和最近邻分类器的可靠性图

这就是分配给算法的权重如下所示的原因:C4.5的权重为W1=4,随机森林的权重为W2=3,神经网络的权重为W3=2,以及近邻权重为1。从精确度和召回率的角度来看,这些权重也反映了从这些模型中获得的性能(C4.5的权重更高,最近邻算法的权重更低)。

图8显示了剩余模型的校准曲线图。

图8,高斯过程、QDA、LinearSVM、RFB SVM、朴素贝叶斯和逻辑分类器的可靠性图。

如果与图8中可靠性图所示的趋势相比,这些趋势与完美校准的趋势不太接近:这证实了最佳分类算法是C4.5、随机森林、神经网络和最近邻。我们使用这四个分类器构建集成学习器,并从图7中的校准图中调整权重。使用测试数据集对投票组合学习者进行评估,其性能如表4所示。

表4,投票集成学习器的假阳性比率、精确度、回忆、F值、准确度和Roc面积

四个最佳分类器的使用能够克服单个分类器的性能:I、II、III和IV级脑癌的精度分别为0.991、0.994、0.976和0.990。对于I、II、III和IV级脑癌,获得的召回率分别等于0.995、0.978、0.995和0.989。使用最佳单分类器(即C4.5分类器)获得的性能的精度介于0.951(i级)到0.944(IV级)之间(训练),和介于0.953(i级)到0.961(IV级)之间(测试)。为了更好地突出所设计的投票组合方法获得的性能,图9显示了与投票组合进行的I、II、III和IV脑癌分级相关的roc面积曲线。Roc曲线基本上总结了预测模型的真阳性率和假阳性率之间的权衡。

图9,ROC曲线图9显示了四条roc曲线(与I、II、III和IV级相关):X轴上为假阳性率,Y轴上为真阳性率。

此外,我们在表5中显示了混淆矩阵。

表5,集成学习器的混淆矩阵

考虑到如第2节所述,我们发现几项研究[37,50–52]展示了利用同一数据集[37]进行脑癌等级检测的实验(即从Radiopaedia收集的D3数据集),我们使用该数据集计算了平均精度、平均召回率和平均准确率,以证明所提出方法的有效性。最优性能对比如表6所示。

表6,与其他方法性能对比

如表6中的结果所示,我们获得0.99的准确度,说明所提出的设计集成学习器的方法优于现有的脑癌分级检测方法。

5讨论

在本节中,我们将讨论所提出方法的局限性和对有效性的威胁。机器学习技术展示了在没有相关领域背景知识的情况下解决分类任务的能力,相关工作部分证明了这一点。尽管如此,这也是一个弱点,如[82,83]所示,与所学行为的最小偏差足以将未包含在训练数据集中的实例错误分类(例如,显示脑癌被检测为良性的MRI)。在分类器训练的数据中未考虑的情况下,很难完全确定地证明机器学习系统所做的预测适用于所有情况。通过使用集成学习架构,我们旨在缓解这一问题。事实上,集成方法通过组合多个模型来提高机器学习性能。与实验得出的单一模型相比,集成学习的利用可以产生更好的预测。集成学习的主要原则是,一系列学习器能够形成一个强大的集成学习模型,从而提高模型的准确性。下面我们将讨论对有效性的可能影响,即:结构效度、内部有效性、可靠性和外部有效性。

结构效度

结构效度的影响可能与测量的不精确性有关。本研究中的结构效度因子由我们数据集的限制样本表示。为了限制这一因素,我们考虑了三个数据集(即D1、D2和D3),它们可自由用于研究目的,并且属于多个机构。我们通过假设测试和分类器训练、评估和测试,对D1数据集进行了最佳特征选择(在训练阶段,50%的D1数据集被认为是构建集成模型的条件,25%的D1数据集被认为是验证的条件,最后25%被认为是测试的条件)。对100%的D2和D3数据集进行测试。

内部有效性

对内部有效性的影响是指基于研究得出的因果结论在多大程度上是合理的。我们的结果强烈依赖于集成的机器学习算法,为了缓解这一因素,我们评估了十种不同机器学习算法的性能:最近邻、线性支持向量机、径向基函数支持向量机、高斯过程、C4.5、随机森林、神经网络、QDA、朴素贝叶斯和逻辑回归。此外,我们的结果强烈依赖于相关数据集:为了缓解这一因素,我们考虑了两个公共可用数据集。此外,我们还展示了研究论文中针对脑癌等级检测所达到的性能,在精确度、重复性和准确性方面获得了更好的性能。

信度效度

信度和效度的影响在于研究获得相同结果的能力。评估的磁共振成像属于三个可用于研究目的的公共数据集。第一个(即D1)可从以下url获得:

https://wiki.cancerimagingarchive.net/display/Public/ REMBRANDT

此外,从以下url:https://bit.ly/2XmpppQ提供了与每个分析患者磁共振成像相关的详细报告。第二个数据集(即D2)可从BraTS 2019挑战赛(http://braintumorsegmentation.org/)获得,而第三个数据集,即D3数据集(被认为是将获得的性能与文献中获得的性能进行直接比较)可从Radiopaedia存储库(https://Radiopaedia.org)获得。

外部效度

特定的结果可能会导致该方法在应用于其他环境时表现出不同的性能。如相关工作部分所述,机器学习技术被考虑用于脑癌检测,也被考虑用于与肺[84,85]和前列腺[86]等其他器官相关的疾病。研究人员通常采用单个学习算法,而在本文中,我们设计了一个由一系列分类器组成的集合学习模型(相对于单一算法分类,能够获得更好的性能)。综上所述,考虑到机器学习技术广泛用于检测针对多个器官(不仅仅是大脑)的癌症,我们有理由认为,通过开发集成学习器,我们可以克服现有的基于机器学习方法的缺点,也可以用于不同于部位。

6结论和展望

考虑到脑癌的扩散和被诊断者生活质量的降低,本文提出了一种基于集成学习的I、II、III和IV级脑癌鉴别方法。基于影像组学特征作为集成学习模型的输入,从而提高分类器获得的性能。具体而言,所提出的集成基于加权软投票,其中通过比较模型可靠性图来选择分类器的权重。我们对所提出的方法进行了评估,试验了两个免费可用的数据集,获得0.991(I级)、0.994(II级)、0.976(III级)和0.990(IV级)的精度,同时重新调用获得的精度分别为:0.995(I级)、0.978(II级)、0.995(III级)和0.989(IV级)。作为未来的工作,我们计划采用深度学习和模型评估技术来提高所获得的性能。

  • 0
    点赞
  • 19
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值