主要内容总结
文章开发了一个称为CausalEGM的估计因果效应的通用框架,通过对生成模型进行编码,该框架可在二元和连续Treatment环境中应用。在潜在结果框架中,通过对无混杂性的假设,我们建立了高维协变量空间与一个已知密度的低维潜在空间(例如,多元正态分布)之间的双向转换。通过这种方式,CausalEGM同时解耦了协变量对Treatment和结果的依赖关系,并将协变量映射到低维潜在空间。通过在低维潜在特征上进行条件操作,CausalEGM可以估计每个个体的因果效应或在整个人群中的平均因果效应。理论分析显示,CausalEGM的过量风险可以通过经验过程理论进行界定。在对编码器-解码器网络的假设下,估计的一致性可以得到保证。在一系列实验中,CausalEGM在二元和连续Treatment方案下均表现出优越性能。具体而言,在样本量大且协变量高维的情况下,CausalEGM比现有方法更为强大。
1 Introduction
- 文章首先强调了在不同领域(如医学、政策评估和商业策略)中估计因果效应的重要性。特别指出,在大数据时代,传统的小样本数据分析方法不再适用,需要更强大的工具来准确估计大规模观察性数据中的因果效应。
- 虽然RCT是研究因果关系的黄金标准,但由于其耗时、昂贵且泛化能力有限,文章强调了在“真实世界”环境中使用观察性研究的价值。
- 介绍了潜在结果模型及其在因果推断中的应用,包括重新加权、匹配和分层等非参数估计方法。然而,这些方法在面对高维协变量时效果不佳。
- 探讨了机器学习特别是深度学习在因果效应估计中的应用。虽然神经网络在因果推断中展现出前景,但现有方法在处理连续Treatment和高维协变量方面存在局限。
- 为了克服现有方法的局限性,文章提出了CausalEGM,一个使用编码生成建模的通用框架。该框架的特点包括适用于离散和连续Treatment设置的统一模型架构,以及一种编码生成的降维方案,用于解耦协变量对Treatment和结果的依赖关系。CausalEGM不需要预先设定Treatment或结果模型,能够处理高维数据,并在各种设置下优于现有方法。
2 Method
这部分详细阐述了CausalEGM模型的方法,旨在解决以下关键问题,并提出了相应的解决方案:
- 因果效应估计的问题表述:文章首先定义了因果效应估计的问题,其中 X X X为处理变量, Y Y Y为结果变量。介绍了潜在结果模型,并提出了非混淆性假设,以便在给定高维协变量 V V V的情况下估计average dose-response function(ADRF)。
- 高维协变量处理:针对在高维协变量情况下非参数回归难以实现的问题,提出了假设2,即存在一个低维特征 Z 0 = Z 0 ( V ) Z_0=Z_0(V) Z0=Z0(V),可从高维协变量 V V V中提取,使得 ϵ \epsilon ϵ和 V V V在给定 Z 0 Z_0 Z0的条件下与 X X X独立。
- CausalEGM模型架构:详细介绍了CausalEGM模型的架构,包括编码生成模型的应用,用于将高维协变量映射到低维潜在空间。模型包括编码器 E ( V ) E(V) E(V)和解码器 G ( Z ) G(Z) G(Z),并使用了对抗生成网络(GAN)来优化这些函数。
- 模型训练和架构:详细描述了模型的训练过程,包括使用GAN的对抗训练损失和重构损失,以及处理处理变量和结果变量的生成模型的均方误差损失。此外,还提供了网络架构的具体细节,包括网络层的配置和激活函数的选择。
μ ( x ) = E ( Y ( x ) ) = E ( f ( x , V , ϵ ) ) \mu(x)=\mathbb{E}(Y(x))=\mathbb{E}(f(x, V, \epsilon)) μ(x)=E(Y(x))=E(f(x,V,ϵ))定义了average dose-response function(ADRF),它用于估计Treatment X X X对结果 Y Y Y的平均影响。
- μ ( x ) \mu(x) μ(x): dose-response function。
- Y ( x ) Y(x) Y(x): 在Treatment x x x 下的潜在结果。
- f f f: 确定性的结果方程。
- x x x: Treatment变量的特定值。
- V V V: 观察到的多维协变量。
- ϵ \epsilon ϵ: 影响 X X X和 Y Y Y的所有其他(未观察到的)变量。
X ⊥ ϵ ∣ V X \perp \epsilon \mid V X⊥ϵ∣V表达了非混淆性假设,即在给定协变量 V V V的条件下,Treatment X X X与所有其他未观察到的变量 ϵ \epsilon ϵ是独立的。
- X X X: Treatment变量。
- ϵ \epsilon ϵ: 影响 X X X和 Y Y Y的所有其他(未观察到的)变量。
- V V V: 观察到的多维协变量。
μ ( x ) = ∫ E ( Y ∣ X = x , V = v ) p V ( v ) d v \mu(x)=\int \mathbb{E}(Y \mid X=x, V=v) p_V(v) d v μ(x)=∫E(Y∣X=x,V=v)pV(v)dv 在非混淆性假设下,提供了通过观察数据识别average dose-response function的方法。
- μ ( x ) \mu(x) μ(x):average dose-response function。
- Y Y Y: 结果变量。
- X X X: Treatment变量。
- V V V: 观察到的多维协变量。
- p V ( v ) p_V(v) pV(v): V V V的边际密度。
μ ( x ) = ∫ E ( Y ∣ X = x , Z 0 = z 0 ) p Z 0 ( z 0 ) d z 0 \mu(x)=\int \mathbb{E}\left(Y \mid X=x, Z_0=z_0\right) p_{Z_0}\left(z_0\right) d z_0 μ(x)=∫E(Y∣X=x,Z0=z0)pZ0(z0)dz0在假设存在能够从高维协变量 V V V中提取的低维特征 Z 0 Z_0 Z0的情况下,提供了估计average dose-response function的方法。
- μ ( x ) \mu(x) μ(x): average dose-response function。
- Y Y Y: 结果变量。
- X X X: Treatment变量。
- Z 0 Z_0 Z0: 从 V V V中提取的低维特征。
- p Z 0 ( z 0 ) p_{Z_0}(z_0) pZ0(z0): Z 0 Z_0 Z0的边际密度。
对抗训练损失函数
L
G
A
N
(
E
)
=
−
E
v
∼
p
emp
(
v
)
[
D
z
,
−
1
(
E
(
v
)
)
]
\mathcal{L}_{G A N}(E)=-\mathbb{E}_{v \sim p_{\text {emp }}(v)}\left[D_{z,-1}(E(v))\right]
LGAN(E)=−Ev∼pemp (v)[Dz,−1(E(v))]
L
G
A
N
(
D
z
)
=
−
E
z
∼
p
(
z
)
[
D
z
,
−
1
(
z
)
]
+
E
v
∼
p
map
(
v
)
[
D
z
,
−
1
(
E
(
v
)
)
]
+
λ
E
z
∼
p
^
(
z
)
[
(
∇
D
z
,
−
1
(
z
)
−
1
)
2
]
\mathcal{L}_{G A N}\left(D_z\right)=-\mathbb{E}_{z \sim p(z)}\left[D_{z,-1}(z)\right]+\mathbb{E}_{v \sim p_{\text {map }}(v)}\left[D_{z,-1}(E(v))\right]+\lambda \mathbb{E}_{z \sim \hat{p}(z)}\left[\left(\nabla D_{z,-1}(z)-1\right)^2\right]
LGAN(Dz)=−Ez∼p(z)[Dz,−1(z)]+Ev∼pmap (v)[Dz,−1(E(v))]+λEz∼p^(z)[(∇Dz,−1(z)−1)2]
这些公式定义了GAN的对抗训练损失,用于训练编码器 E E E和判别器 D z D_z Dz,以使编码的潜在特征与指定的多变量高斯分布相匹配。
- L G A N \mathcal{L}_{GAN} LGAN: GAN的对抗训练损失函数。
- E E E: 编码器网络。
- D z D_z Dz: 判别器网络。
- v v v: 观察到的协变量样本。
- z z z: 潜在特征样本。
- p e m p ( v ) p_{emp}(v) pemp(v): 观察到的协变量的经验分布。
- p ( z ) p(z) p(z): 指定的多变量高斯分布。
- p ^ ( z ) \hat{p}(z) p^(z): 从观察数据和生成数据之间的直线上均匀采样。
- λ \lambda λ: 梯度惩罚系数。
重构损失函数
L
rec
(
E
,
G
)
=
∥
z
−
E
(
G
(
z
)
)
∥
2
2
+
∥
v
−
G
(
E
(
v
)
)
∥
2
2
\mathcal{L}_{\text {rec }}(E, G)=\|z-E(G(z))\|_2^2+\|v-G(E(v))\|_2^2
Lrec (E,G)=∥z−E(G(z))∥22+∥v−G(E(v))∥22定义了重构损失,用于确保通过
E
E
E和
G
G
G网络生成的数据与原始数据尽可能接近。
- L r e c \mathcal{L}_{rec} Lrec: 重构损失函数。
- E E E: 编码器网络。
- G G G: 解码器/生成器网络。
- z z z: 潜在特征。
- v v v: 观察到的协变量。
均方误差损失函数
L
M
S
E
(
F
)
=
∥
x
−
F
(
z
0
,
z
2
)
∥
2
2
\mathcal{L}_{M S E}(F)=\left\|x-F\left(z_0, z_2\right)\right\|_2^2
LMSE(F)=∥x−F(z0,z2)∥22
L
M
S
E
(
H
)
=
∥
y
−
H
(
z
0
,
z
1
,
x
)
∥
2
2
\mathcal{L}_{M S E}(H)=\left\|y-H\left(z_0, z_1, x\right)\right\|_2^2
LMSE(H)=∥y−H(z0,z1,x)∥22
定义了用于学习处理变量和结果变量的生成模型的均方误差损失。
- L M S E \mathcal{L}_{MSE} LMSE: 均方误差损失函数。
- F F F: 用于结果变量的生成模型。
- H H H: 用于处理变量的生成模型。
- x x x: Treatment变量。
- y y y: 结果变量。
- z 0 , z 1 , z 2 z_0, z_1, z_2 z0,z1,z2: 从协变量 V V V编码得到的不同子向量。
3 Theoretical Analysis
这部分论述提供了对CausalEGM模型的理论分析,主要解决了以下问题,并提出了相应的解决方案:
- GAN背景与理论框架(第3.1节): 提供了GAN(生成对抗网络)的理论背景,包括概率测度、伪距离函数、以及如何通过训练分类器来最小化伪距离。
- 问题设置和符号定义(第3.2节): 描述了CausalEGM模型的基本设置,包括结果变量 Y Y Y、Treatment变量 X X X、协变量 V V V以及潜在变量 Z Z Z之间的关系。这部分还定义了模型训练的目标,包括两个映射函数 e e e和 g g g的学习,以及用于训练的损失函数。
- 超额风险界限(第3.3节): 提供了一个关于超额风险的界限,该界限衡量了模型在训练数据上的表现与在整个数据分布上可能达到的最优表现之间的差距。通过引入Rademacher复杂度,给出了超额风险的概率上界。
- 一致性分析(第3.4节): 在引入额外假设(关于协变量的降维属性)的基础上,证明了模型的一致性。一致性分析表明,随着样本量的增加,模型学习到的函数将越来越接近真实的底层函数。
伪距离函数: d ( P , Q ; A ) : = sup A ∈ A ∣ P ( A ) − Q ( A ) ∣ d(P, Q ; \mathscr{A}):=\sup _{A \in \mathscr{A}}|P(A)-Q(A)| d(P,Q;A):=supA∈A∣P(A)−Q(A)∣
- 此公式定义了两个概率测度 P P P 和 Q Q Q 在可测子集类 A \mathscr{A} A 上的伪距离。
- P , Q P, Q P,Q:概率测度。
- A \mathscr{A} A:空间的可测子集类。
模型方程
- Y = f 0 ( X , Z 0 , Z 1 ) + ϵ 1 Y=f^0\left(X, Z_0, Z_1\right)+\epsilon_1 Y=f0(X,Z0,Z1)+ϵ1
- X = h 0 ( Z 0 , Z 2 ) + ϵ 2 X=h^0\left(Z_0, Z_2\right)+\epsilon_2 X=h0(Z0,Z2)+ϵ2
- ( Z 0 , Z 1 , Z 2 ) = ( e 0 0 ( V ) , e 1 0 ( V ) , e 2 0 ( V ) ) \left(Z_0, Z_1, Z_2\right)=\left(e_0^0(V), e_1^0(V), e_2^0(V)\right) (Z0,Z1,Z2)=(e00(V),e10(V),e20(V))
- V = g 0 ( Z ) V=g^0(Z) V=g0(Z)
- 这些方程定义了模型中结果 Y Y Y、处理 X X X、协变量 V V V 和潜在变量 Z Z Z 之间的关系。
损失函数
- L 1 = E n ∥ Y − f ( X , e 0 ( V ) , e 1 ( V ) ) ∥ 2 2 L_1=\mathbb{E}_n\left\|Y-f\left(X, e_0(V), e_1(V)\right)\right\|_2^2 L1=En∥Y−f(X,e0(V),e1(V))∥22
- L 2 = E n ∥ X − h ( e 0 ( V ) , e 2 ( V ) ) ∥ 2 2 L_2=\mathbb{E}_n\left\|X-h\left(e_0(V), e_2(V)\right)\right\|_2^2 L2=En∥X−h(e0(V),e2(V))∥22
- L 3 = d ( P Z 0 , P e m p ( e ( V ) ) ; A m ) L_3=d\left(P_{Z^0}, P_{e m p(e(V))} ; \mathscr{A}_m\right) L3=d(PZ0,Pemp(e(V));Am)
- L 4 = E n ∥ V − g ( e ( V ) ) ∥ 2 2 L_4=\mathbb{E}_n\|V-g(e(V))\|_2^2 L4=En∥V−g(e(V))∥22
这些公式表示用于训练模型组件的损失函数。
- Y Y Y:结果变量。
- X X X:处理变量。
- V V V:协变量。
- Z 0 , Z 1 , Z 2 Z_0, Z_1, Z_2 Z0,Z1,Z2:潜在变量。
- f 0 , h 0 , e 0 0 , e 1 0 , e 2 0 , g 0 f^0, h^0, e_0^0, e_1^0, e_2^0, g^0 f0,h0,e00,e10,e20,g0:关联变量 Y , X , V , Z Y, X, V, Z Y,X,V,Z 的真实底层函数。
- ϵ 1 , ϵ 2 \epsilon_1, \epsilon_2 ϵ1,ϵ2:模型方程中的误差项。
- E n \mathbb{E}_n En:基于观察数据的经验期望。
过量风险公式
- R 0 ( f ^ M , h ^ M , e ^ M , g ^ M ) − inf f , h , e , g ∈ F M R 0 ( f , h , e , g ) R^0\left(\hat{f}_M, \hat{h}_M, \hat{e}_M, \hat{g}_M\right)-\inf _{f, h, e, g \in \mathscr{F}_M} R^0(f, h, e, g) R0(f^M,h^M,e^M,g^M)−inff,h,e,g∈FMR0(f,h,e,g)
- 衡量经过培训的模型相对于类别 F M \mathscr{F}_M FM 中的最优模型的过量风险。
过量风险边界的组成部分
- α M , n , β M , n , γ M , n , ζ M , n \alpha_{M, n}, \beta_{M, n}, \gamma_{M, n}, \zeta_{M, n} αM,n,βM,n,γM,n,ζM,n
- 组成模型性能不同方面的上界的组件。
Rademacher 复杂度
- R n ( F ) : = E ϵ , O [ sup f ∈ F ∣ 1 n ∑ i = 1 n ϵ i f ( O i ) ∣ ] \mathscr{R}_n(\mathscr{F}):=\mathbb{E}_{\epsilon, O}\left[\sup _{f \in \mathscr{F}}\left|\frac{1}{n} \sum_{i=1}^n \epsilon_i f\left(O_i\right)\right|\right] Rn(F):=Eϵ,O[supf∈F n1∑i=1nϵif(Oi) ]
- 衡量函数类 F \mathscr{F} F 的复杂性及其适应随机噪声的能力。
- R 0 R^0 R0:真实风险函数。
- f ^ M , h ^ M , e ^ M , g ^ M \hat{f}_M, \hat{h}_M, \hat{e}_M, \hat{g}_M f^M,h^M,e^M,g^M:训练模型函数。
- F M \mathscr{F}_M FM:具有给定复杂度参数 M M M 的深度神经网络的类别。
- α M , n , β M , n , γ M , n , ζ M , n \alpha_{M, n}, \beta_{M, n}, \gamma_{M, n}, \zeta_{M, n} αM,n,βM,n,γM,n,ζM,n:构成模型性能不同方面上界的术语。
- P Z 0 P_{Z^0} PZ0:标准多元高斯分布 Z 0 Z^0 Z0 的概率测度。
- P e m p ( e ( V ) ) P_{e m p(e(V))} Pemp(e(V)):编码变量 e ( V ) e(V) e(V) 的经验分布。
一致性假设
- ( e 0 0 , e 1 0 , e 2 0 , e ~ 3 ) = D Z 0 \left(e_0^0, e_1^0, e_2^0, \tilde{e}_3\right) \stackrel{\mathcal{D}}{=} Z^0 (e00,e10,e20,e~3)=DZ0
- 假设编码器函数的某种结构,其与潜在变量分布 Z 0 Z^0 Z0 的关系。
一致性定理
-
E 0 ∥ ( f 0 − f ∗ ) ( X , Z 0 , Z 1 ) ∥ 2 2 + E 0 ∥ ( h 0 − h ∗ ) ( Z 0 , Z 2 ) ∥ 2 2 + d ( P Z 0 , P e ∗ ( V ) ; A M ) ≤ 2 δ \mathbb{E}_0\left\|\left(f^0-f^*\right)\left(X, Z_0, Z_1\right)\right\|_2^2+\mathbb{E}_0\left\|\left(h^0-h^*\right)\left(Z_0, Z_2\right)\right\|_2^2+d\left(P_{Z^0}, P_{e^*(V)} ; \mathscr{A}_M\right) \leq 2 \delta E0 (f0−f∗)(X,Z0,Z1) 22+E0 (h0−h∗)(Z0,Z2) 22+d(PZ0,Pe∗(V);AM)≤2δ
-
表达了模型学到的函数在一定条件下收敛到它们的最优形式。
4 Experiments
本节的核心内容描述了一系列实验证明 CausalEGM 模型在估计观察研究中的Treatment效应方面的性能。
Treatment效应估计的评估
-
目标:
- 验证 CausalEGM 在估计总体水平上的平均Treatment效应和个体Treatment效应方面的能力,考虑到异质性Treatment效应。
-
设置:
- 在二元和连续Treatment设置下测试模型。
使用的数据集
-
连续Treatment:
- 利用三个模拟数据集和一个真实数据集,每个都是根据现有文献中不同的数据生成过程设计的。
-
二元Treatment:
- 使用了来自2018年大西洋因果推断会议(ACIC)的数据集,这些数据集包含基于真实医学测量的半合成数据。
评估指标
-
连续Treatment指标:
- 均方根误差(RMSE)、平均绝对百分比误差(MAPE)和边际Treatment效应函数的平均绝对误差(Bias(MTEF))。
-
二元Treatment指标:
- 平均Treatment效应的绝对误差(ε_ATE)和异质效应估计的精度(ε_PEHE)。
用于比较的基准方法
- 使用了各种在连续和二元Treatment设置下的传统回归方法、机器学习方法以及先进模型,包括 CFR、Dragonnet、CEVAE、GANITE 和 Causalforest。
结果和发现
-
连续Treatment:
- CausalEGM 在估计average dose-response function方面表现出色,跨三个模拟数据集实现了最低的 RMSE、MAPE 和 Bias(MTEF)。
-
二元Treatment:
- CausalEGM 在估计平均Treatment效应和个体Treatment效应方面优于其他方法,特别是在较大数据集中。
模型组件的贡献
- 分析了 Roundtrip 模块和对抗训练对模型性能的影响,展示了它们在提高估计准确性方面的重要性。
鲁棒性和可扩展性
- 进行了额外实验证明模型对潜在特征维度的鲁棒性以及处理大型数据集的可扩展性。
主要指标
- 均方根误差 (RMSE):
- R M S E = 1 n ∑ i = 1 n ∥ μ ( x i ) − μ ^ ( x i ) ∥ 2 2 R M S E=\sqrt{\frac{1}{n} \sum_{i=1}^n\left\|\mu\left(x_i\right)-\hat{\mu}\left(x_i\right)\right\|_2^2} RMSE=n1∑i=1n∥μ(xi)−μ^(xi)∥22
用于衡量估计的average dose-response function与真实average dose-response function之间的差异,较小的值表示估计更准确。
- n n n:样本数量。
- μ ( x i ) \mu\left(x_i\right) μ(xi): x i x_i xi处的真实average dose-response function值。
- μ ^ ( x i ) \hat{\mu}\left(x_i\right) μ^(xi): x i x_i xi处的估计average dose-response function值。
- 平均绝对百分比误差 (MAPE):
- M A P E = 1 n ∑ i = 1 n ∥ μ ( x i ) − μ ^ ( x i ) μ ( x i ) ∥ 1 M A P E=\frac{1}{n} \sum_{i=1}^n\left\|\frac{\mu\left(x_i\right)-\hat{\mu}\left(x_i\right)}{\mu\left(x_i\right)}\right\|_1 MAPE=n1∑i=1n μ(xi)μ(xi)−μ^(xi) 1
用于衡量估计的average dose-response function与真实average dose-response function之间的百分比误差。
- n n n:样本数量。
- μ ( x i ) \mu\left(x_i\right) μ(xi): x i x_i xi处的真实average dose-response function值。
- μ ^ ( x i ) \hat{\mu}\left(x_i\right) μ^(xi): x i x_i xi处的估计average dose-response function值。
- 边际Treatment效应函数的平均绝对误差 (Bias(MTFE)):
- M T F E = μ ( x + Δ x ) − μ ( x ) Δ x M T F E=\frac{\mu(x+\Delta x)-\mu(x)}{\Delta x} MTFE=Δxμ(x+Δx)−μ(x)
- Bias ( M T F E ) = \operatorname{Bias}(M T F E)= Bias(MTFE)= Mean Absolute Difference between μ ( x ) \mu(x) μ(x) and μ ^ ( x ) \hat{\mu}(x) μ^(x)
用于衡量边际Treatment效应函数的估计准确性。
- Δ x \Delta x Δx:dose增量。
- μ ( x ) \mu(x) μ(x):真实的average dose-response function。
- μ ^ ( x ) \hat{\mu}(x) μ^(x):估计的average dose-response function。
- 平均Treatment效应的绝对误差
- ϵ A T E = ∣ 1 n ∑ i = 1 n ( Y ^ i ( 1 ) − Y ^ i ( 0 ) ) − 1 n ∑ i = 1 n ( Y i ( 1 ) − Y i ( 0 ) ) ∣ \epsilon_{A T E}=\left|\frac{1}{n} \sum_{i=1}^n\left(\hat{Y}_i(1)-\hat{Y}_i(0)\right)-\frac{1}{n} \sum_{i=1}^n\left(Y_i(1)-Y_i(0)\right)\right| ϵATE= n1∑i=1n(Y^i(1)−Y^i(0))−n1∑i=1n(Yi(1)−Yi(0))
用于衡量平均Treatment效应估计的准确性。
- n n n:样本数量。
- Y ^ i ( 1 ) , Y ^ i ( 0 ) \hat{Y}_i(1), \hat{Y}_i(0) Y^i(1),Y^i(0):在Treatment x = 1 x=1 x=1和 x = 0 x=0 x=0下预测的潜在结果。
- Y i ( 1 ) , Y i ( 0 ) Y_i(1), Y_i(0) Yi(1),Yi(0):在Treatment x = 1 x=1 x=1和 x = 0 x=0 x=0下的真实潜在结果。
- 异质效应估计的精度
ϵ P E H E = 1 n ∑ i = 1 n ( Y ^ i ( 1 ) − Y ^ i ( 0 ) − ( Y i ( 1 ) − Y i ( 0 ) ) ) 2 \epsilon_{P E H E}=\frac{1}{n} \sum_{i=1}^n\left(\hat{Y}_i(1)-\hat{Y}_i(0)-\left(Y_i(1)-Y_i(0)\right)\right)^2 ϵPEHE=n1∑i=1n(Y^i(1)−Y^i(0)−(Yi(1)−Yi(0)))2
用于衡量个体Treatment效应估计的准确性。
- n n n:样本数量。
- Y ^ i ( 1 ) , Y ^ i ( 0 ) \hat{Y}_i(1), \hat{Y}_i(0) Y^i(1),Y^i(0):在Treatment x = 1 x=1 x=1和 x = 0 x=0 x=0下预测的潜在结果。
- Y i ( 1 ) , Y i ( 0 ) Y_i(1), Y_i(0) Yi(1),Yi(0):在Treatment x = 1 x=1 x=1和 x = 0 x=0 x=0下的真实潜在结果。
5 Conclusion
CausalEGM模型利用深度生成神经网络在处理混杂因素和估计因果推断中的Treatment效应方面的先进技术,能够进行高效的编码,将高维协变量映射到低维潜在空间。基于GAN的对抗训练和基于自动编码器的重构,以确保潜在特征彼此独立,并包含协变量的必要变化,以进行良好的重构。
CausalEGM灵活地估计个体和群体在二元或连续Treatment设置下的Treatment效应。在一系列系统实验中,CausalEGM表现出优越的性能,优于其他现有方法。
CausalEGM模型的许多扩展和改进仍然是开放问题。有可以探索的几个方向。首先,虽然基于GAN的对抗训练能确保潜在特征的独立性,但值得尝试将生成过程中的近似误差纳入分析,以分析CausalEGM的收敛行为。其次,可以在应用于具有不同样本大小的数据集时,研究CausalEGM中超参数的复杂性。