文献精读 Nature Medicine | 用于预测治疗结果的因果机器学习

最新推荐文章于 2025-05-11 21:47:02 发布

小天才学习机打游戏

最新推荐文章于 2025-05-11 21:47:02 发布

阅读量1.4k

点赞数 10

文章标签：机器学习人工智能深度学习百度 chatgpt

本文链接：https://blog.csdn.net/m0_59164520/article/details/144434808

版权

医学中的因果ML

患者层面 (Patient Level):

能够处理高维和非结构化的患者协变量数据
可以处理多模态数据集，包括: 医学图像、文本数据、时间序列数据、基因数据

结果层面 (Outcome Level):

可以进行个性化的治疗效果估计

治疗层面 (Treatment Level):

可以有效估计不同患者群体之间的治疗效果异质性，以确定治疗对哪些患者亚组有效（图1c不同年龄组的治疗效果差异)

什么时候应该使用因果ML

目标差异：

传统ML：预测结果

例子：通过风险评分预测糖尿病发病风险，识别高风险患者
局限：不能得知最佳治疗方案

因果ML：量化治疗导致的结果变化

例子：预测抗糖尿病药物会如何改变患者的发病风险，决定是否服用这种药物；预测患者对不同治疗的潜在结果

方法论发展：

传统统计方法通常假设关于患者特征和结果之间关系的参数形式，例如线性依赖性，但容易导致模型错误指定
因果ML更灵活，能够捕捉复杂的疾病动力学以及人类病理生理学和药理学的细微变化。然而需要以更大的样本量

因果推理的基本问题

“我们无法同时观察同一个人在接受和不接受治疗两种情况下的结果”

对于任何患者，我们只能观察到在给定治疗下的实际结果（factual outcome）；我们永远无法观察到在其他假设治疗情况下的反事实结果（counterfactual outcome）。

因果ML工作流程

制定问题的因果结构

必要变量的确定：

治疗（treatment）：例如化疗类型
患者结果（patient outcome）：例如肿瘤大小
患者特征（covariates）：如年龄、性别、病史等

数据来源的类型：

观察性数据

特点：治疗分配依赖于患者特征

实验数据（RCTs）：

特点：治疗是随机分配的；不同治疗组间的患者特征相似；倾向得分已知（例如，在两个同等大小的治疗组的完全随机试验中，倾向评分为50%）而在真实世界数据（RWD）中则需要估计。

选择感兴趣的因果量

治疗效果的常见选择可以沿着两个维度分组；效应异质性程度和治疗类型。

效应异质性程度：

平均治疗效果测量在研究人群水平上的影响。通过比较接受治疗的患者与未接受治疗的患者（对照组）的平均结果。
条件平均治疗效果了解治疗效果的异质性可以告知哪些亚组可能对治疗无效甚至有害，从而为个体化治疗建议提供支持。
个体患者结果：不同治疗下潜在结果的细粒度预测。

治疗效果说明一种治疗相对于另一种治疗的优势，而潜在结果预测推理不同治疗方案下的预期结果，需要仔细的建模策略。在实践中，平均治疗效果和条件平均治疗效果通常比预测潜在结果更容易，因此更常用于决策。

评估可识别性假设的合理性

可识别性是指因果量（如治疗效果）能否从数据中唯一地推断出来。

RCT通过完全随机的治疗分配确保治疗效果的可识别性。

RWD的治疗分配不是完全随机的，而是依赖于协变量，因此需要做出正式假设。

需满足三个标准的“因果”假设：

1. 稳定单位治疗值假设（SUTVA）：每个单位的潜在结果只取决于它自己接受的处理，而不受其他单位处理状态的影响。

2. 积极性假设：需要所有患者特征组合下都有非零概率接受治疗。对于所有可能的患者特征组合，既有接受治疗的患者，也有未接受治疗的患者。

3. 无混淆性假设：指出在给定观察到的协变量的情况下，治疗分配与潜在结果无关。

选择、拟合和评估因果ML方法

模型选择：

选用不同的机器学习模型来分析药效

对现有机器学习模型进行调整，以提高治疗效应估计的性能，如因果树（经过特殊训练的决策树）

评估模型：使用真实/模拟数据

稳健性检查

添加无关变量测试：如果影响结果，则模型可能存在问题

用随机数据替换真实治疗数据，如果依旧显示明显效果，说明模型可能存在问题

模拟数据测试：准确评估模型表现

技术建议

检查假设的合理性

一致性假设：

基于领域知识评估治疗的独立性
积极性假设：
- 使用倾向得分图进行验证
- 运用不确定性量化方法
- 必要时排除特定亚组
无混杂假设：
- 咨询领域专家确保因素完整性
- 考虑使用工具变量
- 进行因果敏感性分析评估结果稳健性

研究报告要求

明确说明方法假设、基本原理和稳健性检查
将RWD估计效果与RCT结果进行比较
注意数据质量和代表性
预防风险：
- 控制假阳性风险
- 避免选择性报告
建议：
预先注册分析方案
明确承认局限性
可能时通过RCT验证

临床应用价值

生成新的临床证据
识别特定治疗反应人群
弥补RCT局限性：

使用场景

监管评估：评估整体净收益(ATE)
亚组分析：评估不同群体效果(CATE)
药物开发：识别受益人群
假设生成：发现潜在治疗方向

主要挑战

技术层面：

治疗效应异质性估计难度大
不确定性量化不足
需要更完善的软件工具

实施层面：

缺乏标准化协议
需要建立伦理指南
监管框架不完善

未来发展方向

加强跨学科合作
整合临床决策支持系统
结合方法论和领域专业知识
提高临床实用性

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述