《CausalEGM: a general causal inference framework by encoding generative modeling》论文学习-CSDN博客

本文链接：https://blog.csdn.net/weixin_43534607/article/details/134770063

文章提出CausalEGM框架用于估计因果效应，可在二元和连续Treatment环境应用。它通过编码生成建模解耦协变量依赖，将其映射到低维潜在空间。理论分析能界定过量风险、保证估计一致性。实验显示，在样本量大且协变量高维时，CausalEGM性能优于现有方法。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

主要内容总结

文章开发了一个称为CausalEGM的估计因果效应的通用框架，通过对生成模型进行编码，该框架可在二元和连续Treatment环境中应用。在潜在结果框架中，通过对无混杂性的假设，我们建立了高维协变量空间与一个已知密度的低维潜在空间（例如，多元正态分布）之间的双向转换。通过这种方式，CausalEGM同时解耦了协变量对Treatment和结果的依赖关系，并将协变量映射到低维潜在空间。通过在低维潜在特征上进行条件操作，CausalEGM可以估计每个个体的因果效应或在整个人群中的平均因果效应。理论分析显示，CausalEGM的过量风险可以通过经验过程理论进行界定。在对编码器-解码器网络的假设下，估计的一致性可以得到保证。在一系列实验中，CausalEGM在二元和连续Treatment方案下均表现出优越性能。具体而言，在样本量大且协变量高维的情况下，CausalEGM比现有方法更为强大。

1 Introduction

文章首先强调了在不同领域（如医学、政策评估和商业策略）中估计因果效应的重要性。特别指出，在大数据时代，传统的小样本数据分析方法不再适用，需要更强大的工具来准确估计大规模观察性数据中的因果效应。
虽然RCT是研究因果关系的黄金标准，但由于其耗时、昂贵且泛化能力有限，文章强调了在“真实世界”环境中使用观察性研究的价值。
介绍了潜在结果模型及其在因果推断中的应用，包括重新加权、匹配和分层等非参数估计方法。然而，这些方法在面对高维协变量时效果不佳。
探讨了机器学习特别是深度学习在因果效应估计中的应用。虽然神经网络在因果推断中展现出前景，但现有方法在处理连续Treatment和高维协变量方面存在局限。
为了克服现有方法的局限性，文章提出了CausalEGM，一个使用编码生成建模的通用框架。该框架的特点包括适用于离散和连续Treatment设置的统一模型架构，以及一种编码生成的降维方案，用于解耦协变量对Treatment和结果的依赖关系。CausalEGM不需要预先设定Treatment或结果模型，能够处理高维数据，并在各种设置下优于现有方法。

2 Method

这部分详细阐述了CausalEGM模型的方法，旨在解决以下关键问题，并提出了相应的解决方案：

因果效应估计的问题表述：文章首先定义了因果效应估计的问题，其中 $X$ 为处理变量， $Y$ 为结果变量。介绍了潜在结果模型，并提出了非混淆性假设，以便在给定高维协变量 $V$ 的情况下估计average dose-response function（ADRF）。
高维协变量处理：针对在高维协变量情况下非参数回归难以实现的问题，提出了假设2，即存在一个低维特征 $Z_0=Z_0(V)$ ，可从高维协变量 $V$ 中提取，使得 $\epsilon$ 和 $V$ 在给定 $Z_0$ 的条件下与 $X$ 独立。
CausalEGM模型架构：详细介绍了CausalEGM模型的架构，包括编码生成模型的应用，用于将高维协变量映射到低维潜在空间。模型包括编码器 $E (V)$ 和解码器 $G (Z)$ ，并使用了对抗生成网络（GAN）来优化这些函数。
模型训练和架构：详细描述了模型的训练过程，包括使用GAN的对抗训练损失和重构损失，以及处理处理变量和结果变量的生成模型的均方误差损失。此外，还提供了网络架构的具体细节，包括网络层的配置和激活函数的选择。

$\mu(x)=\mathbb{E}(Y(x))=\mathbb{E}(f(x, V, \epsilon))$ 定义了average dose-response function(ADRF)，它用于估计Treatment $X$ 对结果 $Y$ 的平均影响。

$\mu(x)$ : dose-response function。
$Y (x)$ : 在Treatment $x$ 下的潜在结果。
$f$ : 确定性的结果方程。
$x$ : Treatment变量的特定值。
$V$ : 观察到的多维协变量。
$\epsilon$ : 影响 $X$ 和 $Y$ 的所有其他（未观察到的）变量。

$\perp \epsilon \mid V$ 表达了非混淆性假设，即在给定协变量 $V$ 的条件下，Treatment $X$ 与所有其他未观察到的变量 $\epsilon$ 是独立的。

$X$ : Treatment变量。
$\epsilon$ : 影响 $X$ 和 $Y$ 的所有其他（未观察到的）变量。
$V$ : 观察到的多维协变量。

$\mu(x)=\int \mathbb{E}(Y \mid X=x, V=v) p_V(v) d v$ 在非混淆性假设下，提供了通过观察数据识别average dose-response function的方法。

$\mu(x)$ :average dose-response function。
$Y$ : 结果变量。
$X$ : Treatment变量。
$V$ : 观察到的多维协变量。
$p_V(v)$ : $V$ 的边际密度。

$\mu(x)=\int \mathbb{E}\left(Y \mid X=x, Z_0=z_0\right) p_{Z_0}\left(z_0\right) d z_0$ 在假设存在能够从高维协变量 $V$ 中提取的低维特征 $Z_0$ 的情况下，提供了估计average dose-response function的方法。

$\mu(x)$ : average dose-response function。
$Y$ : 结果变量。
$X$ : Treatment变量。
$Z_0$ : 从 $V$ 中提取的低维特征。
$p_{Z_0}(z_0)$ : $Z_0$ 的边际密度。

对抗训练损失函数
$\mathcal{L}_{G A N}(E)=-\mathbb{E}_{v \sim p_{\text {emp }}(v)}\left[D_{z,-1}(E(v))\right]$
$\mathcal{L}_{G A N}\left(D_z\right)=-\mathbb{E}_{z \sim p(z)}\left[D_{z,-1}(z)\right]+\mathbb{E}_{v \sim p_{\text {map }}(v)}\left[D_{z,-1}(E(v))\right]+\lambda \mathbb{E}_{z \sim \hat{p}(z)}\left[\left(\nabla D_{z,-1}(z)-1\right)^2\right]$

这些公式定义了GAN的对抗训练损失，用于训练编码器 $E$ 和判别器 $D_z$ ，以使编码的潜在特征与指定的多变量高斯分布相匹配。

$\mathcal{L}_{GAN}$ : GAN的对抗训练损失函数。
$E$ : 编码器网络。
$D_z$ : 判别器网络。
$v$ : 观察到的协变量样本。
$z$ : 潜在特征样本。
$p_{emp}(v)$ : 观察到的协变量的经验分布。
$p (z)$ : 指定的多变量高斯分布。
$\hat{p}(z)$ : 从观察数据和生成数据之间的直线上均匀采样。
$\lambda$ : 梯度惩罚系数。

重构损失函数
$\mathcal{L}_{\text {rec }}(E, G)=\|z-E(G(z))\|_2^2+\|v-G(E(v))\|_2^2$ 定义了重构损失，用于确保通过 $E$ 和 $G$ 网络生成的数据与原始数据尽可能接近。

$\mathcal{L}_{rec}$ : 重构损失函数。
$E$ : 编码器网络。
$G$ : 解码器/生成器网络。
$z$ : 潜在特征。
$v$ : 观察到的协变量。

均方误差损失函数
$\mathcal{L}_{M S E}(F)=\left\|x-F\left(z_0, z_2\right)\right\|_2^2$
$\mathcal{L}_{M S E}(H)=\left\|y-H\left(z_0, z_1, x\right)\right\|_2^2$
定义了用于学习处理变量和结果变量的生成模型的均方误差损失。

$\mathcal{L}_{MSE}$ : 均方误差损失函数。
$F$ : 用于结果变量的生成模型。
$H$ : 用于处理变量的生成模型。
$x$ : Treatment变量。
$y$ : 结果变量。
$z_0, z_1, z_2$ : 从协变量 $V$ 编码得到的不同子向量。

3 Theoretical Analysis

这部分论述提供了对CausalEGM模型的理论分析，主要解决了以下问题，并提出了相应的解决方案：

GAN背景与理论框架（第3.1节）: 提供了GAN（生成对抗网络）的理论背景，包括概率测度、伪距离函数、以及如何通过训练分类器来最小化伪距离。
问题设置和符号定义（第3.2节）: 描述了CausalEGM模型的基本设置，包括结果变量 $Y$ 、Treatment变量 $X$ 、协变量 $V$ 以及潜在变量 $Z$ 之间的关系。这部分还定义了模型训练的目标，包括两个映射函数 $e$ 和 $g$ 的学习，以及用于训练的损失函数。
超额风险界限（第3.3节）: 提供了一个关于超额风险的界限，该界限衡量了模型在训练数据上的表现与在整个数据分布上可能达到的最优表现之间的差距。通过引入Rademacher复杂度，给出了超额风险的概率上界。
一致性分析（第3.4节）: 在引入额外假设（关于协变量的降维属性）的基础上，证明了模型的一致性。一致性分析表明，随着样本量的增加，模型学习到的函数将越来越接近真实的底层函数。

伪距离函数： $\mathscr{A}):=\sup _{A \in \mathscr{A}}|P(A)-Q(A)|$

此公式定义了两个概率测度 $P$ 和 $Q$ 在可测子集类 $\mathscr{A}$ 上的伪距离。
$P, Q$ ：概率测度。
$\mathscr{A}$ ：空间的可测子集类。

模型方程

$Y=f^0\left(X, Z_0, Z_1\right)+\epsilon_1$
$X=h^0\left(Z_0, Z_2\right)+\epsilon_2$
$\left(Z_0, Z_1, Z_2\right)=\left(e_0^0(V), e_1^0(V), e_2^0(V)\right)$
$V=g^0(Z)$
这些方程定义了模型中结果 $Y$ 、处理 $X$ 、协变量 $V$ 和潜在变量 $Z$ 之间的关系。

损失函数

$L_1=\mathbb{E}_n\left\|Y-f\left(X, e_0(V), e_1(V)\right)\right\|_2^2$
$L_2=\mathbb{E}_n\left\|X-h\left(e_0(V), e_2(V)\right)\right\|_2^2$
$L_3=d\left(P_{Z^0}, P_{e m p(e(V))} ; \mathscr{A}_m\right)$
$L_4=\mathbb{E}_n\|V-g(e(V))\|_2^2$

这些公式表示用于训练模型组件的损失函数。

$Y$ ：结果变量。
$X$ ：处理变量。
$V$ ：协变量。
$Z_0, Z_1, Z_2$ ：潜在变量。
$f^0, h^0, e_0^0, e_1^0, e_2^0, g^0$ ：关联变量 $Y, X, V, Z$ 的真实底层函数。
$\epsilon_1, \epsilon_2$ ：模型方程中的误差项。
$\mathbb{E}_n$ ：基于观察数据的经验期望。

过量风险公式

$R^0\left(\hat{f}_M, \hat{h}_M, \hat{e}_M, \hat{g}_M\right)-\inf _{f, h, e, g \in \mathscr{F}_M} R^0(f, h, e, g)$
衡量经过培训的模型相对于类别 $\mathscr{F}_M$ 中的最优模型的过量风险。

过量风险边界的组成部分

$\alpha_{M, n}, \beta_{M, n}, \gamma_{M, n}, \zeta_{M, n}$
组成模型性能不同方面的上界的组件。

Rademacher 复杂度

$\mathscr{R}_n(\mathscr{F}):=\mathbb{E}_{\epsilon, O}\left[\sup _{f \in \mathscr{F}}\left|\frac{1}{n} \sum_{i=1}^n \epsilon_i f\left(O_i\right)\right|\right]$
衡量函数类 $\mathscr{F}$ 的复杂性及其适应随机噪声的能力。
$R^0$ ：真实风险函数。
$\hat{f}_M, \hat{h}_M, \hat{e}_M, \hat{g}_M$ ：训练模型函数。
$\mathscr{F}_M$ ：具有给定复杂度参数 $M$ 的深度神经网络的类别。
$\alpha_{M, n}, \beta_{M, n}, \gamma_{M, n}, \zeta_{M, n}$ ：构成模型性能不同方面上界的术语。
$P_{Z^0}$ ：标准多元高斯分布 $Z^0$ 的概率测度。
$P_{e m p(e(V))}$ ：编码变量 $e (V)$ 的经验分布。

一致性假设

$\left(e_0^0, e_1^0, e_2^0, \tilde{e}_3\right) \stackrel{\mathcal{D}}{=} Z^0$
假设编码器函数的某种结构，其与潜在变量分布 $Z^0$ 的关系。

一致性定理

$\mathbb{E}_0\left\|\left(f^0-f^*\right)\left(X, Z_0, Z_1\right)\right\|_2^2+\mathbb{E}_0\left\|\left(h^0-h^*\right)\left(Z_0, Z_2\right)\right\|_2^2+d\left(P_{Z^0}, P_{e^*(V)} ; \mathscr{A}_M\right) \leq 2 \delta$
表达了模型学到的函数在一定条件下收敛到它们的最优形式。

4 Experiments

本节的核心内容描述了一系列实验证明 CausalEGM 模型在估计观察研究中的Treatment效应方面的性能。

Treatment效应估计的评估

目标:
- 验证 CausalEGM 在估计总体水平上的平均Treatment效应和个体Treatment效应方面的能力，考虑到异质性Treatment效应。
设置:
- 在二元和连续Treatment设置下测试模型。

使用的数据集

连续Treatment:
- 利用三个模拟数据集和一个真实数据集，每个都是根据现有文献中不同的数据生成过程设计的。
二元Treatment:
- 使用了来自2018年大西洋因果推断会议（ACIC）的数据集，这些数据集包含基于真实医学测量的半合成数据。

评估指标

连续Treatment指标:
- 均方根误差（RMSE）、平均绝对百分比误差（MAPE）和边际Treatment效应函数的平均绝对误差（Bias(MTEF)）。
二元Treatment指标:
- 平均Treatment效应的绝对误差（ε_ATE）和异质效应估计的精度（ε_PEHE）。

用于比较的基准方法

使用了各种在连续和二元Treatment设置下的传统回归方法、机器学习方法以及先进模型，包括 CFR、Dragonnet、CEVAE、GANITE 和 Causalforest。

结果和发现

连续Treatment:
- CausalEGM 在估计average dose-response function方面表现出色，跨三个模拟数据集实现了最低的 RMSE、MAPE 和 Bias(MTEF)。
二元Treatment:
- CausalEGM 在估计平均Treatment效应和个体Treatment效应方面优于其他方法，特别是在较大数据集中。