因果效应估计:最新进展、挑战与机遇

本文探讨了因果效应估计在医疗保健等领域的应用，强调了传统方法在处理大规模高维数据时的局限。近年来，结合机器学习如表示学习和图形神经网络的方法取得显著进步，但同时也带来新挑战，如处理不同类型的干预和协变量、选择偏差以及模型稳定性。作者全面审视了治疗、协变量和结果这三个关键部分的最新研究进展和未来机遇。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

英文题目：Causal Effect Estimation: Recent Advances, Challenges, and Opportunities

中文题目：因果效应估计:最新进展、挑战与机遇

单位：chuzhixuan.czx@alibaba-inc.com, {caiqiong, ruopeng.lrp, weichu.cw}@antgroup.com, shengli@virginia.edu

时间：2023

论文链接：https://export.arxiv.org/pdf/2302.00848v1.pdf

代码：

摘要因果推断在许多领域都有大量的现实应用，如医疗保健、市场营销、政治学和在线广告。治疗效果估计是因果推理中的一个基本问题，在统计学中已经被广泛研究了几十年。然而，传统的治疗效果估计方法可能无法很好地处理大规模、高维的异构数据。近年来，结合传统的治疗效果评估方法(如倾向评分、匹配和重称重)和先进的机器学习方法(如表示学习、对抗学习和图形神经网络)的优点，在广阔的人工智能领域引起了越来越多的关注。虽然先进的机器学习方法在治疗效果估计方面表现出了非凡的表现，但它也带来了许多新的课题和新的研究问题。鉴于因果推断领域的最新研究成果，我们对治疗效果评估任务的三个核心组成部分，即治疗、协变量和结果，提出了挑战和机遇的全面讨论。此外，我们从多个角度展示了本课题有前景的研究方向。

1简介

因果关系自然广泛应用于科学的各个学科，发现变量之间的因果关系并估计感兴趣的因果效应。推断因果关系最有效的方法是进行随机对照试验，将参与者随机分配到治疗组或对照组。由于进行了随机研究，对照组和治疗组之间唯一预期的区别是正在研究的结果变量。然而，在现实中，随机对照试验总是耗时且昂贵。此外，在大多数随机对照试验中还需要考虑伦理问题，这基本上限制了它的应用。因此，观测数据提供了一种诱人的捷径，而不是随机的受控试验。观察数据是由研究人员简单地观察没有干扰的受试者获得的。这意味着研究人员没有控制治疗和受试者，并通过简单地分析记录的数据来研究受试者。对于因果推理，我们希望回答“如果患者收到不同的药物，这个患者是否会有不同的结果？”由于两个原因，回答这样的反事实问题具有挑战性。首先，我们只观察事实结果，从未观察到的反事实结果，如果受试者被分配到不同的治疗，可能会发生这种情况。第二个是治疗通常不会在观察数据中随机分配，这可能导致处理人群与一般人群显着不同，即众所周知的选择偏差问题。

近年来，机器学习领域的壮观蓬勃发展增强了因果推理方法的发展。强大的机器学习方法，如决策树、表示学习、深度神经网络、对抗性学习等，已被应用于更准确地估计潜在结果。除了改善结果估计模型外，机器学习方法还提供了处理不同类型处理的新方面，利用各种类型的协变量，并减轻不同形式的选择偏差。得益于因果推理和机器学习方法之间的深度键合，治疗效果估计任务取得了很大进展。然而，鉴于因果推理领域的最新研究工作，我们从治疗效果估计任务的核心组件（即治疗、协变量和结果）中得出三个主要挑战：

2 相关工作

4研究挑战与机遇

在本节中，我们详细介绍了治疗、协变量和结果的新挑战，提出了基于机器学习对这些挑战的最新研究方法，并讨论了潜在的研究机会。

1. Treatment

如何对不同类型的 treatment 进行建模，常见的 treatment 的类型包括

二元
多元
连续值
相互关联的顺序处理干预（IST，比如癌症治疗中的，先手术，再放疗/化疗，多个步骤组成一个干预过程，且步骤之间相互影响）
结构化干预（例如图网络，图像，文本等）

因此，如何表示，建模不同类型的干预变量，是一个热门问题。下图展示了不同种类干预的示意图

format,png

2. Covariate

如何处理不同种类的协变量，常见的协变量类型包括

混淆变量（可观测的和不可观测的）
修饰变量
工具变量（只直接作用于干预变量，但是不直接作用于结果变量）
Spurious variables（伪变量，表示与研究问题无关的变量和特征，这些伪变量可能会影响模型的性能，使其难以准确的学习和预测）

因此，如何进行 feature selection 和 feature representation 也是因果效应估计问题中的一个难点和挑战。下图展示了这四类变量与 treatment 和 outcome 之间的关系。

format,png

3. Outcome

在估计事实与反事实结果时，如何克服不同干预组的选择偏差（selection bias）也是一个重点与难点；选择偏差带来的研究方向包括

distribution invariance（模型在不同数据分布下仍能保持其性能和效果的特性）
domain adaptation（领域适应是指将一个模型从一个领域（或者数据分布）应用到另一个领域，使其能够在目标领域上表现良好）
local similarity（局部相似性指的是数据集中相邻样本之间在特征空间中的相似程度。在许多机器学习和数据掘任务中，局部相似性常常是一个重要的概念，因为相似的样本往往在特征空间中更靠近，可能共享相似的属性和性质。）
domain overlap（领域重叠指的是不同领域之间在数据分布上的一定程度的重叠。在进行领域适应时，领域重叠通常被认为是一个有利的条件，因为它意味着源领域和目标领域之间在数据分布上有一定程度的相似性，这有助于模型在目标领域上进行泛化）
mutual information（互信息是信息论中的一个概念，用来度量两个随机变量之间的相关性。在机器学习中，互信息可以用来衡量两个变量之间的关联程度，或者用于特征选择、降维等任务，以提取最有用的信息。）

可以看到，上述方向基本上都是在讲模型的『稳定性』，因此我们可以大致窥探『稳定的学习和推理』是因果的核心挑战，也是因果学科对于当前机器学习和人工智能领域的核心贡献。

知道了我们面临的挑战，那我们来看一下，针对这3个挑战，因果领域里有哪些基础研究和最新进展。