R语言机器学习之影像组学分析的原理详解

a6e8b01df9a3473c99c3a0d6e40df1d2.jpg


 

概要

 

影像组学从常规医学图像中高通量提取大量的放射学定量数据,并以非侵入性方式探索它们与临床结果的相关性,在医学研究中得到广泛的应用。


 

01 影像组学(Radiomics)的概念:

影像组学(Radiomics)和机器学习技术结合是AI影像辅助诊断的常用方法。

影像组学研究的一般步骤如下:从CT、PET或MRI等医学图像中高通量地提取并分析影像学特征,而后基于图像分割、提取筛选特征、构建预测模型等机器学习算法来实现疾病的诊断、评估、预测等临床应用。

2ed22b9ec50f45839a542f79c692a1f7.png

 即,获取图像、勾画感兴趣区(Region of interset, ROI)、从 ROI中提取定量特征及降维、筛选特征,最后基于不同机器学习模型利用筛选得到的特征构建预测和分类模型。

 

02 影像组学特征的介绍:

影像组学特征:影像组学可从医学图像中提取大量定量特征,在一定程度上反映生物医学图像中隐藏的潜在病理生理学信息。

影像组学特征可分为语义特征和不可知特征:

① 语义特征包括:尺寸、形状等参数;

② 不可知特征包括:一阶、二阶和高阶特征;

一阶特征描述个体体素值分布而不考虑空间关系;二阶特征主要描述图像的纹理特征;高阶特征则需以多种滤波器网络获取,包括小波变换和拉普拉斯变换等。

影像组学通过图像分割和标注获取特征。在图像分割前通常需要预先对医学影像数据进行标注,而后通过机器学习等算法模型展开训练,进行自动图像分割。目前国内外标注软件多是功能单一的附带简单标注功能的医学图像处理软件。例如,LabelImg和LabelMe是两款常见的标注工具,可支持对图像进行多边形、圆形、线段和点等形式的勾画,但不具备获取、存储和管理医疗数据及数据统计等功能,且不同专病医学影像检查涉及的设备不同,医学图像格式类型各异,常见的标注工具难以同时支持多种格式类型的医学图像标注。

影像组学所需的特征工程:不同专病影像涉及的器官位置、需提取的图像特征(如轮廓、灰度、纹理、毛刺、边缘等)不尽相同,且特征选择的过程非常复杂。通常需要先提取成百上千种图像特征,经过相关性分析后筛选出少数几种和任务具有强相关的特征。特征选择的过程对模型诊断的准确率至关重要,但需要计算机视觉的专业知识。

 

03 影像组学分析平台:

影像组学分析平台包含:数据管理、阅片标注、课题管理和丰富的影像组学及机器学习组件。

通过本平台,临床医生无需任何编程便可完成影像组学的全流程分析,包括特征提取、特征分析、模型选择等,并生成相应的结构化分析报告(英文表述)。该报告可直接用于科研论文的撰写。

640?wx_fmt=png&tp=wxpic&wxfrom=5&wx_lazy=1&wx_co=1

bab78afae4c84831bfdbd929003ec47a.png

 影像组学分析平台一般流程如下:平台提供了基于影像组学和机器学习技术的分析建模全周期功能,所有过程都提供中间数据,并根据中间数据生成对应图表,作为分析报告提供给用户,以便进行分析总结。

① 分析数据选择:在进行课题分析时,用户可根据数据分布情况选择部分或全部当前课题组所有的案例进行分析。为了避免模型过拟合,所选案例最少不低于20例。

② 特征值计算:对所选案例,平台可自动提取每个案例的1688个影像组学特征,特征包括灰度特征、三维特征、纹理特征、小波变换特征。

③ 分析特征选择:用户可从影像组学特征和临床特征中选择部分或全部特征,进入模型建立模块。单次可只选择影像组学特征或临床特征分别建模,也可联合两部分特征共同建模。

④ 数据分组:在建模模块时,平台提供了2种数据分组方法:随机法和K折法,随机法将按指定比例进行数据分组;K折法将数据随机分为等量的K组,进行K次训练,第X次训练以第X组作为测试集,其余组作为训练集。

⑤ 特征筛选:根据影像组学方法,在进行机器学习建模前,需要筛选所选特征。平台提供了3种特征筛选方法:方差选择法(Variance Threshold)、单变量特征值选择法(SelectKBest)和最小绝对收缩算子(Lasso)。

⑥ 机器学习建模:平台提供了12种常见的机器学习算法模型组件供用户调用。按照学习方式,这些模型可分为监督式学习、非监督式学习、半监督式学习、增强学习4类。按照学习任务,这些模型可分为分类、回归、聚类3类。其中,分类与回归都属于监督学习,前者是预测一个离散的标签,后者是预测一个连续的数量,聚类则属于无监督学习。

平台模型库中共包含13种机器学习算法模型,用于数据分析建模,分别是:K近邻(k-nearest neighbor, KNN)、支持向量机(support vector machines, SVM)、极端梯度提升(extreme gradient boosting, XGBoost)、梯度提升树(gradient boosting machine, GBM)、伯努利贝叶斯分类(Bernoulli NB)、高斯朴素贝叶斯(Gaussian NB)、决策树(decisiontree, DT)、线性判别分析(linear discriminant analysis, LDA)、随机森林(random forest, RF)、逻辑回归(logistic regression, LR)、自适应(adaptive boosting, AdaBoost)、多项式朴素贝叶斯(Multinomial NB)以及随机梯度下降(stochastic gradient descent, SGD)。

3156a422b6214a93a58cea6ad6d5b7f6.png

⑦ 模型验证:分析模型建立后,为了评估模型的性能,平台会自动计算模型在训练集和测试集上的敏感性(sensitivity, SE)、特异性(specificity, SP)、

准确率(accuracy, Acc)、曲线面积(area under curve, AUC)、可信度等指标,部分指标公式如下:

  • SE=TP/(TP+FN) (1)

  • SP=FP/(FP+TN) (2)

  • Acc=(TP+FN)/(TP+TN+FP+FN) (3)

式中:TP、FP、FN、TN分别是指模型预测为阳性的阳性案例、预测为阳性的阴性案例,预测为阴性的阳性案例,预测为阴性的阴性案例。

⑧ 分析报告:平台将数据分析和模型运行的中间过程生成的图表汇总,生成分析报告。报告中包括特征筛选过程图、筛选后的特征列表、模型在训练集和验证集上的性能表、ROC曲线图等。

6f3799bdcea44cc1939ddd0d7219c483.png

 

 

04 总结:

f99604bc372c4e288a57e1763fa7f1ad.png

 

 

今天的内容就到这里,欢迎点赞收藏转发,感谢🙏

 

  • 0
    点赞
  • 21
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 1
    评论
机器学习在基因组学序列分析中的应用研究是一种新兴的研究领域。随着高通量测序技术的发展,生物学家们能够快速获得大量的基因组学数据,这使得机器学习技术成为了一种强有力的工具,可以帮助生物学家们更好地理解基因组学数据。 机器学习技术可以应用于基因组学序列分析的许多方面,包括基因预测、基因表达分析、基因组比较和蛋白质结构预测等。例如,基于机器学习技术,可以开发出一些高效的基因预测算法,这些算法可以自动地从基因组序列中识别出具有生物学功能的基因元件。同时,机器学习技术还可以应用于基因表达分析中,可以帮助生物学家们更好地理解不同基因的表达模式,并预测这些基因在不同条件下的表达模式。 此外,机器学习技术还可以应用于基因组比较和蛋白质结构预测中。基于机器学习技术,可以开发出一些高效的基因组比较算法,这些算法可以帮助生物学家们比较不同物种之间的基因组序列,并揭示它们之间的相似性和差异性。同时,机器学习技术还可以用于预测蛋白质的结构,这对于理解蛋白质的功能和调控机制非常重要。 总的来说,机器学习在基因组学序列分析中的应用研究,已经成为了一种重要的研究领域。通过机器学习技术的应用,我们可以更好地理解基因组学数据,并推动基因组学领域的发展。
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Rocky006

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值