svm分类器_使用放射学机器学习分类器区分胶质母细胞瘤与孤立性脑转移瘤

使用放射学机器学习分类器区分胶质母细胞瘤与孤立性脑转移瘤

脑转移瘤(MET)和胶质母细胞瘤(GBM)是成人中最常见的恶性脑肿瘤。因此,MET和GBM的准确术前区分对于个体化治疗至关重要。在这项研究中,从412例孤立性脑肿瘤患者的对比增强(CE)成像数据中提取了大量放射学特征,在训练群组中进行基于特征选择和分类评估的机器学习,用于确定最佳的放射学机器学习分类器,在术前区分GBM和MET。

材料与方法

从癌症基因组图谱TCGA收集了来自北京天坛医院的142例组织学确诊的GBM患者和85例MET患者作为训练队列,构建了一个包含100名GBM患者和85名MET患者的数据的测试队列。

1.MRI数据采集和感兴趣区域分割

从Cancer Imaging Archive下载来自TCGA的142名GBM患者的MRI数据,CGGA中的MRI扫描使用Siemens Trio 3-T扫描仪进行,包括轴向T1数据,使用0.1 mmol / kg DTPA-Gd注射的CE扫描和T2图像。ROI由两位神经放射学家根据CE图像上的肿瘤边界使用MRIcro软件手动绘制,放射医学工作流程概述如图1所示。

6f389c30f0732ccf692c3a62919bfdc4.png

图1 当前研究中放射性分析的工作流程

在特征提取之后,选择稳定的特征用于进一步分析。结合多个特征选择方案和分类器,并在训练群组中借助交叉验证选择有利的模型。在一个独立的测试队列中,通过与病理学比较确定最佳模型,然后将最佳模型的表现与两位神经放射学家进行比较。

2.放射性特征提取

使用PyRadiomics进行放射学特征的提取,这种放射学定量平台可以实现特征定义和图像处理的标准化。为了避免数据异质性偏差,对所有MRI数据进行成像归一化,并采样到相同的分辨率。对于每个ROI,应用了六个内置滤波器和五个要素类,共产生了1303个放射学特征。由两位神经放射学家产生的两组ROI用于特征提取过程,获得两组放射学特征。对两组放射学特征进行组内相关系数ICC分析,以评估每个特征的稳定性,选择一组稳定的放射学特征并归一化为z分布。对稳定的放射学特征进行无监督的K均值聚类分析,以确定GBM和MET是否可通过成像亚型来区分。

3.特征选择方法

在研究中,分析中使用了12种特征选择方法,过滤方法(T检验评分(TSCR),Relief(RELF),信息增益(IFGN),增益比(GNRO),欧几里德距离(EUDT),F-anova(FAOV),Wilcoxon秩和(WLCX),逻辑回归(LG)和互信息(MUIF)),包装方法(支持向量机(SVM))和嵌入式方法(10倍交叉验证最小绝对收缩和选择算子(LASSO)和随机森林(RF)),使用R软件和Python进行特征选择。七种过滤方法是单变量方法(TSCR,RELF,IFGN,GNRO,EUDT,FAOV和WLCX),两种是多变量方法(LG和MUIF)。对于七种单变量方法,根据相关性分数列出了前100个高分特征。然后结合逻辑回归模型和ROC曲线分析,通过继续从上到下添加列表中的特征来识别可以实现曲线下最大面积(AUC)的特征。

4.特征分类方法

应用七种有监督的机器学习算法; Adaboost分类器(Ada),k近邻(KNN),多层感知器(MLP),决策树(DT),朴素贝叶斯(NB),RF和SVM,功能分类方法使用Python机器学习库(scikit-learn)实现。

5.机器学习分类器的预测性能

通过使用7种分类方法中的来评估包含84个机器学习分类器的所选特征的12个子集。在scikit-learn中使用StratifiedKFold迭代器对训练组中的84个机器学习分类器中的每一个应用5倍交叉验证作为标准。曲线下面积(AUC)和百分位数相对标准偏差(RSD)分别用于评估分类器的预测性能和稳定性,使用AUC在独立的测试群组中评估训练模型。计算混淆矩阵导出的指标,在训练组中具有AUC≥0.95和RSD≤6的交叉验证值的分类器和在测试组中具有最高AUC值的模型被认为是最终模型。两位神经放射学家根据T1,T2和CE图像手动区分GBM和MET,用ROC曲线对两位神经放射学家的结果进行评估,与最终机器模型的性能进行比较。进行卡方检验,比较神经放射学家和最终机器模型之间预测的GBM / MET的比例。

6.统计分析

GBM和MET之间的临床和MRI特征的差异视情况通过t检验或卡方检验进行评估,使用R软件和SPSS软件进行统计和图表分析。

结果

1.临床和磁共振成像特征

表1中显示了训练组和测试组中患者的临床和MRI特征。两组中GBM和MET患者的年龄和性别无显著差异。通过MRI显示的解剖学特征表明,大多患有幕下结构的患者被诊断为MET(p <0.001)。然而,两组中坏死外观或水肿外观的特征在GBM和MET之间没有发现差异。

4b1a774d5397e529e068c4cf45ee2206.png

表格1 MET和GBM患者的临床和MRI特征。  缩写: a卡方检验 b t检验

2.定性射线照相特征分析

图2描绘了使用ICC分析的放射学特征的稳健性。

形状特征,一阶强度统计特征,纹理特征,方形特征,平方根特征,对数特征,指数特征和log特征具有高ICC,因此更加稳健,而小波特征较低ICC并且不太稳健。共有1,303提取的放射学特征中的898个显示出高稳定性,包括13个形状特征,18个一阶强度统计特征,68个纹理特征,82个方形特征,82个平方根特征,82个对数功能,85个指数特征,172个log特征和296个小波特征。

67bffc6a219d7f8548c1e4bccf53b4dd.png

图2.从九个要素类中提取的特征的组内相关系数(ICC)的箱形图

3.功能选择

在训练组中,根据12种特征选择方法筛选12个所选特征的子集,基于这12个选定特征子集和7个特征分类方法检查84个机器学习分类器。84个机器学习分类器的平均AUC和RSD值的热图如图3所示,平均AUC值为0.90,平均RSD值为7.99。

使用SVM分类的12个分类器的平均AUC值在训练群组中达到0.945(图3A)。对于预测稳定性,12个SVM分类器的平均RSD值为6.21,与其他分类器相比是最低的(图3B)。

e25524d9fc513a025fbfbf915fe5b61d.png

图3 热图显示了训练组中特征选择方法(行)和分类算法(列)的不同组合的预测性能(AUC)。 (A)84个分类器的交叉验证的AUC值。(B)84个分类器的RSD值。

根据交叉验证值(AUC≥0.95和RSD≤6)的标准选择出十三个分类器,然后选择已建立的分类器用于测试组。在所选择的13个分类器中,LASSO_SVM的分类器具有最高的AUC值0.90(图4A),被选择作为最佳分类器。对LASSO_SVM的混淆矩阵相关分类指标的分析显示,准确度为82.7%,灵敏度,特异性,PPV和NPV分别为79.8%,87.3%,90.0%和72.9%(图4B)。图5 A和B中显示了训练组中LASSO_SVM分类器的5倍交叉验证ROC曲线和LASSO_SVM分类器的ROC曲线。

e39e24957b3d25d72cff95b48568d535.png

图4 构建的分类器在测试群组中的预测性能。(A)84个分类器的AUC值。(B)具有LASSO_SVM分类器的混淆矩阵。

aff03b282c779793fcc246b76a270c7c.png

图5 最佳分类器的接收器操作特性ROC曲线。(A)训练组中最佳LASSO_SVM分类器的5倍交叉验证ROC曲线。(B)测试群组中LASSO_SVM分类器的ROC曲线。

通过将其性能与两名神经放射学家对测试队列数据的评估进行比较,进一步评估所选择的放射学机器学习分类器的临床价值,如表2所示,LASSO_SVM的分类器在准确性,灵敏度和特异性方面优于神经放射学家。

f56303254cd0079c8f03fd386ecf7cec.png

缩写:Sen,敏感度; Spe,特异性; PPV,正预测值; NPV,负预测值; LASSO,最小绝对收缩和选择算子; SVM,支持向量机。卡方检验。

多生信分析套路,请加微信13621202201

TCGA | 小工具 | 数据库 |组装| 注释 |   基因家族  |  Pvalue

基因预测  |bestorf |  sci | NAR | 在线工具 | 生存分析 | 热图

 生信不死 | 初学者 | circRNA | 一箭画心| 十二生肖 | circos

 舞台|基因组 | 黄金测序 | 套路 | 杂谈组装 |  进化 | 测序简史

3db00b97eb86afa4fb6e35d12d21016b.png

  • 1
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值