因果推断简介
Yule-Simpson Paradox
𝑋 和 𝑌 边缘上正相关,但是给定另外一个变量 𝑍 后,在 𝑍 的每一个水平上,𝑋 和 𝑌 可能负相关。由此可知,相关与因果不同。
- 吸烟是否导致肺癌:吸烟与肺癌正相关,但不能断言“吸烟导致肺癌”。这是因为可能存在一些未观测的因素,同时影响个体是否吸烟和是否得癌症。比如,某些基因可能使得人更容易吸烟, 同时容易得肺癌;存在这样基因的人不吸烟,也同样得肺癌。此时吸烟和肺癌之间相关,却没有因果作用。
- 健康工人效应:铀矿的工人平均寿命不比常人短,似乎证明铀矿工作对健康无影响。但事实上,铀矿的工人通常都是身强力壮的人,不在铀矿工作寿命会更长。
Rubin Causal Model(RCM)和随机化实验
因果推断常用模型:
- RCM:更加精确
- Causal Diagram:更加直观。
一些表示:
- 𝑍𝑖:个体 𝑖 接受处理与否,处理取 1,对照取 0
- 𝑌𝑖 :个体 𝑖 的结果变量
- (𝑌𝑖(1), 𝑌𝑖(0)):个体 𝑖 接受处理或者对照的潜在结果(potential outcome),每个个体要么接受处理,要么接受对照,(𝑌𝑖 (1), 𝑌𝑖 (0)) 中必然缺失一 半
- 𝑌𝑖(1) − 𝑌𝑖(0): 个体 𝑖 接受治疗的个体因果作用
平均因果作用(Average Causal Effect)
随机性体现在 𝑖 上,𝑖 可以看成通常概率论中样本空间 Ω 中的样 本点 𝜔。在 𝑍 做随机化的前提下,我们可以识别总体的平均因果作用(Average Causal Effect):𝐴𝐶𝐸(𝑍 → 𝑌 ) = 𝐸(𝑌𝑖(1) − 𝑌𝑖(0))
这是因为
𝐴𝐶𝐸(𝑍 → 𝑌 ) =𝐸(𝑌𝑖(1)) − 𝐸(𝑌𝑖(0))
= 𝐸(𝑌𝑖(1)∣𝑍𝑖 = 1) − 𝐸(𝑌𝑖(0)∣𝑍𝑖 = 0)
= 𝐸(𝑌𝑖∣𝑍𝑖 = 1) − 𝐸(𝑌𝑖∣𝑍𝑖 = 0),
最后一个等式表明 𝐴𝐶𝐸 可以由观测的数据估计出来。其中第一个等式用 到了期望算子的线性性(非线性的算子导出的因果度量很难被识别!);第二 个式子用到了随机化,即 𝑍⊥(𝑌 (1), 𝑌 (0))(⊥表示独立性)。
观测性研究:可忽略性、倾向得分与回归分析
于有 Yule-Simpson Paradox 的存在,我们知道用如下的条件期望之差
𝐸(𝑌 ∣𝑍=1)−𝐸(𝑌 ∣𝑍=0)
是不能度量处理的因果作用的。