Nature子刊|国家蛋白质科学中心(北京)贺福初/常乘团队等合作研发多中心、大队列“稳定”预后标志物筛选模型...

a090ca1149dd34e2c42c469646c48235.jpeg

本文转载自公众号《人体蛋白质组导航计划》

生存分析是一个重要的统计研究方向,评估协变量对感兴趣事件发生时间的影响,广泛应用于医学、公共卫生、工程、金融等关键领域,以帮助决策和预测生存结果,识别影响生存的关键因素。Cox风险比例模型(Cox Proportional Hazards Model),又称Cox回归模型,由英国统计学家David Cox于1972年提出[1]。该模型以生存结局和生存时间为因变量,可同时分析众多因素对生存期的影响,能分析带有截尾生存时间的资料,且不要求估计资料的生存分布类型。因上述优点,Cox回归模型迅速成为生存分析中最常用和最重要的工具之一,广泛应用于医学、公共卫生、流行病学、临床试验等多个领域。

以Cox模型为主流的大多数现有生存分析方法假设训练和测试数据具有相似的分布,而在现实中,由于不同中心或人群队列的异质性、不同仪器甚至不同分析方法等因素,这一假设常常并不成立。这对现有生存分析方法的泛化性和可靠性提出了严峻的挑战,尤其是在个性化医疗和药物研发等高风险应用中,这些模型的可靠性超越了简单的统计考量,成为生死攸关的重要问题。

b5bd2fc26d2ed7ef5b4bf1e6f66c657d.png

图示:生存分析的分布外泛化场景(来源:论文)

为了应对该挑战,清华大学的崔鹏团队与国家蛋白质中心(北京)贺福初/常乘团队共同提出了一种发现稳定标志物的 Stable Cox 模型。该研究以“Stable Cox Regression for Survival Analysis under Distribution Shifts”为题,于 2024 年 12 月 13 日发布在Nature Machine Intelligence [2]。在多种癌症的组学以及临床预后数据上证明了Stable Cox可以发现在多个测试中心数据上稳定的预后标志物,该标志物可以用于对病人进行亚型分层以及生存曲线预测。

b66f1cba47846d9b6d52b37234e052c5.png

该研究提出发现稳定的预后标志物的关键是在于消除不稳定协变量与生存结果之间的虚假相关性,从而使得学习到的相关性可以代表协变量对生存概率的因果影响,这个因果影响在不同测试中心是稳定的。该研究为方法的稳定性和一致性提供了理论保证,保证其可以消除不稳定协变量的影响。

具体而言,该模型由两阶段组成:独立性驱动的样本加权和加权 Cox 回归。在独立性驱动的样本加权阶段,模型学习一套样本权重对样本进行重加权使得协变量之间相互独立。在加权的 Cox 回归阶段,Cox 模型损失中的样本被之前学到的样本权重进行重加权。这个加权后的样本损失可以有效地分离每个变量对于生存输出的效应。从理论上可以证明即使在有模型错估的情况下,Stable Cox 模型可以识别稳定变量进行预测,也就是模型在不稳定变量上的系数为 0。

88f491a1922faca3fbfafc0a208f089e.png

图示:Stable Cox 模型框架。(来源:论文)

研究团队在三类癌症组学数据集(肝癌、乳腺癌、黑色素瘤)和两类癌症临床生存数据(肺癌、乳腺癌)上进行了广泛实验,采用多个独立测试群体和子群体,展示了此方法的强大泛化能力(平均提升 6.5%-13.9%)。此外,Stable Cox 学习得出的权重系数可用于发现潜在的组合标志物,并区分生存风险显著不同的亚型,这对于指导治疗决策和靶向药物研发具有重要意义。

102f8048b559f44e53355a1fd940f1cd.jpeg

a8fa20af23f3721992976b091cdaaa87.jpeg

8091a10d6ae557670b1e6547a39fd813.jpeg

图示:在肝癌、乳腺癌、⿊⾊素瘤上 Stable Cox 与其他方法在多个独立测试集上的 C-index 比较。(来源:论文)

4ccc71bdff395703cf57ffb95754ea33.jpeg

d234b3495a0862e0b13d46cb1fea6b6d.png

181926fe38177c9fe963ddc756f9315b.png

图示:在肺癌、乳腺癌临床指标上 Stable Cox 与其他方法在多个人群、独立测试集上的 C-index 比较,以及预后亚型人群分组结果和 top10 标志物分析。(来源:论文)

结论:

1.从队列的回顾性研究中发现稳定的标志物用于前瞻性研究是机器学习方法用于实际医疗场景中的关键和难题。

2.然而,现有标志物识别技术的泛化能力较差,仅在与训练数据相似的患者样本中有效,无法应用于多样化的开放环境样本。

3.这些问题使得传统技术发现的标志物难以通过前瞻性测试,不仅导致研发资源的巨大浪费,还阻碍了医药领域的进一步发展。

4.迫切需要开发能够在异质性数据中精确识别并具有高泛化能力的生物标志物的新技术,以实现疾病的早期准确诊断,满足社会对健康保障的需求。

5.本研究提出的稳定生存分析方法旨在通过变量独立使得发现稳定预后标志物成为可能,同时该研究也将呼唤研究界重视机器学习方法在医疗等关键领域应用的稳定性和可靠性。

本文共同通讯作者是崔鹏博士和常乘博士,共同第一作者是清华范少华博士、徐韧喆博士(现为上海财经大学助理教授)、国家蛋白质科学中心(北京)博士研究生董乾该工作得到了人体蛋白质组导航(π-HuB)国际大科学计划[3]的支持。

原文链接:https://www.nature.com/articles/s42256-024-00932-5

参考文献

[1] Cox, David R (1972). "Regression Models and Life-Tables". Journal of the Royal Statistical Society, Series B. 34 (2): 187–220.

[2] Shaohua Fan, Renzhe Xu, Qian Dong, Yue He, Cheng Chang, Peng Cui. Stable Cox regression for survival analysis under distribution shifts. Nature Machine Intelligence, 2024. https://www.nature.com/articles/s42256-024-00932-5

[3] He, F., Aebersold, R., Baker, M.S.et al. π-HuB: the proteomic navigator of the human body. Nature 636, 322–331 (2024). https://doi.org/10.1038/s41586-024-08280-5

高颜值免费 SCI 在线绘图(点击图片直达)

8696ae839793512b73124135092315b1.png

最全植物基因组数据库IMP (点击图片直达)

60c8396e02fe320635444d7966f699ec.png

往期精品(点击图片直达文字对应教程)

8eee5b84d3cceef225c64fa87d461072.jpeg

b06b5472bf34b256ecf833ba2e9ea188.jpeg

a44cc725b20db2b85fc1ea572c6c8b98.jpeg

11e99798fa4491dacae60e7935129d60.jpeg

c4c39e6eceb49f2ff9ef41d5b7a72e2a.jpeg

ee67bfb8c6b531b0dbdd9a55e59ca887.jpeg

3834f7ba6c79d0d163d973e0c4dfcccb.jpeg

5c0d791655aafd1de77638e3712266fd.jpeg

c03307b4fcb65680cec444e545d07277.jpeg

7d9a54c072e5862709765d99302d5159.jpeg

619117e5abab11cdc89510238cb3606b.jpeg

f98e5441dbe7be95fdfb04d417b272f7.jpeg

f8a4e576b4d8b27fdc38437efd7ceca3.png

c96351b7d8608fd2aedaafa35eebaa49.png

2ba9c13b04d83cc45e84aa4f2bff93ac.png

50455f926e02867e0eebc5bb83b317f7.png

307cf7f06349b24fd1d3c38a2db7a2eb.jpeg

f2c8db53609676030d0db24d2f3eeeb1.jpeg

7c5f6d537152c69f8282217a077ae38c.jpeg

8d505c5dbff5beac41ad1d7e0f4f7cc2.jpeg

60770e23ab7af2582e1473e28cb33880.png

e5a586cbd1f85952850a9ea0663709ba.png

a498c6559189cb6930c598473922e85a.jpeg

cb24ad763a62f3f053a6886c0b40ace9.png

7d3845856f45e2cde91782def51d4117.png

7ecbb87b3a016421c65b72543a6fe8a0.jpeg

ee452121b350a81074c837cab884da6f.png

7446dbfb9c167bf7af811c47b6a78382.png

机器学习

b5f0c0972d5d8f25d05892e9bfba90b6.jpeg

529158ed486cf76393f8e597db2223a1.jpeg

7a9dd8302ecec1f74de70c850af45db2.png

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值