8+结合10种机器学习算法构建模型,可复现。

今天给同学们分享一篇机器学习的生信文章“Comprehensive machine-learning survival framework develops a consensus model in large-scale multicenter cohorts for pancreatic cancer”,这篇文章于2022年10月25日发表在eLife期刊上,影响因子为8.713。
8af700e7e7e678ef7a6552715b11dda5.jpeg

作为最具侵袭性的肿瘤,胰腺癌(PACA)的预后在过去十年中没有明显改善。基于解剖学的TNM分期不能准确识别对治疗敏感的患者,精准医学迫切需要一种理想的生物标志物。


1. 胰腺癌症共识基因特征的综合开发

作者的工作流程如图1所示。基于单变量Cox回归,作者从训练和9个测试队列中的15288个交集基因中筛选了32个CPG(图2B)。接下来,这32个CPG被进一步纳入作者的集成计划,以开发AIDPS。在PACA AU阵列训练队列中,作者通过十倍交叉验证应用了76种算法组合来构建预测模型,并计算了其余9个测试队列中每种算法的平均C指数。如图2A所示,选择平均C指数最高(0.675)的CoxBoost和生存SVM组合作为最终模型。根据AIDPS中包含的9个基因的表达文件,作者进一步计算了所有13个队列中每个样本的AIDPS得分(图2)。

ca0593ca2b12c57765be7a36e3577390.jpeg

图1 研究的工作流程

67b19cd2e97a9e74bc745f2a9c1d13d0.jpeg

图2 人工智能衍生的预后标志(AIDPS)的构建和测试


2. AIDPS的一致预后价值

为了评估AIDPS的预后表现,作者根据中位数将PACA患者分为AIDPS高组和AIDPS低组。OS和RFS的Kaplan–Meier曲线表明,在PACA AU阵列训练队列中,高AIDPS组具有显著更长的生存期(OS中p<0.0001,RFS中p=0.012,图3A和B)。在去除批量效应后,结合10个队列(训练和9个测试队列)的Meta队列也表现出相同的趋势(均p<0.05,图3C和D)。此外,作者进一步纳入了几个重要的临床特征进行多变量Cox分析,结果表明,在PACA AU阵列队列中,AIDPS是OS和RFS的独立保护因素(OS的HR:0.593[0.504–0.697],RFS的HR=0.762[0.611–0.949],均p<0.05,图3E和F)。Meta队列中也发现了类似的结果(OS的HR:0.603[0.531–0.685]和RFS的HR:0.667[0.552–0.805],均p<0.05,图3G和H)。

4c4254ee4d05908ecad54618b4e7311c.jpeg

图3 人工智能衍生预后标志(AIDPS)的生存分析和预测性能评估


2f580d351480f2452b222704c6aaa5a4.jpeg

补充图3-1 九个测试队列中人工智能衍生预后标志(AIDPS)的生存分析

40e3fe3156cbafbde7a867a4078d80bd.jpeg

补充图3-2 九个测试队列中人工智能衍生预后标志(AIDPS)的生存分析

694c26f1bbb3cbc21bc58889f435ac2a.jpeg

补充图3-3 人工智能衍生预后特征(AIDPS)在九个测试队列中的预测性能

07fc3efe2a4fb8eca57afce7c96ebbaf.jpeg

补充图3-4 人工智能衍生预后标志(AIDPS)在三个外部验证队列中的生存分析和预测性能

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

生信风暴

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值