本节将延续上一节学习的干预的有关概念,开始深入介绍几种干预的工具:后门调整、前门调整、逆概率加权等。本节将有大量公式来袭,请准备草稿纸或提前绕道~
在上一节最后,我们推导出有关干预的重要公式——调整公式。它的形式如下:
给定一个因果图,并用表示的父节点集,那么对的因果关系可以表示为
其中是所有可能取的值中的一个。根据贝叶斯法则,上式也可以写作
在后续的表述中,为了简化符号,我们将
以上的调整公式告诉我们,如果我们要知道两个变量间的因果关系,比如
后门调整
我们首先给出 后门准则的标准定义:
给定一个有向无环图,以及中的一对有序变量和,如果一组变量中的节点都不是的后代节点,并且以为条件会阻断所有和之间的后门路径,那么变量满足关于的后门准则
进一步的,引出后门调整公式,也就是上一节最后推出的调整公式。
如果变量满足关于的后门准则,那么对的因果关系可以写作:
用如下因果图为例简要说明。假如我们希望估计
所以根据后门调整公式,我们应该计算:
回顾第3节中介绍的混杂及判断方法,我们很容易得知,
但是假如,我们还就真需要以
特别注意以上公式等号右边,
即便如此,后门准则也不是万能的。所以除了后门准则,还有一个分析因果关系的法则叫前门准则。
前门调整
有关前门准则的例子,无一少得了有关吸烟与肺癌关系的这个经典例子。这个例子的因果图如下图所示。遗憾的是,我们无法收集吸烟基因
首先,
那么接下来我们就可以用以上两个公式来一步步推导
<Step 1>
如果觉得看不出来,可以把
<Step 2>
这一步是因为对
<Step 3>
这一步我们又去掉了一个do。这是来源于本节公式(1),因为
<Step 4>
这一步又去掉一个
<Step 5>
第五步出现了较大的变化。但是仔细看看,其实与第一步是一回事。也是根据全概率公式,把
<Step 6>
这一步又去掉了一个do,理由和第二步一样。
<Step 7>
最后这一步直接去掉了
注意这个公式中出现了
为了更好地展示前门调整公式如何应用,我们使用之前提到的吸烟、焦油沉积和吸烟基因的例子来进行说明。吸烟
表中第二第三列给出的两列数据都是比例值,并且都进行了归一化。第二列是
这听起来简直就是歪理。在前门调整出现以前,似乎这个问题还真的被争论了很多年。但前门调整方法就解决了这个矛盾的问题。根据前门调整公式可以进行如下的计算:
意外的是,计算结果说明,吸烟还真的比不吸烟得癌症的概率低。这似乎是与预期相反的结果。但是以上这个例子的模型和数据都不是反映现实的,而是为了演示前门调整公式来设计的。
最后,我们总结前门准则和前面调整的定义如下:
如果变量满足:
1)阻断了所有到之间的路径;
2)到之间没有未阻断的路径;
3)到之间所有的后门路径都被阻断,
那么我们称满足有序变量的前门准则。
更进一步地,前门调整的概念是
如果满足关于有序变量的前门准则,并且如果,那么对于的因果关系就可以被如下的公式估计:
前门调整和后门调整神奇的地方就在于,我们在消除了do运算的情况下进行了干预,也就是说我们仅仅使用观测数据,仅仅使用已知的分布,就能够估计变量之间的因果效应。从理论上讲,这两种方法已经足够用于估计变量之间的因果关系,但是从实践中看,这两种方法还有一些困难。比如前门和后门调整公式中,都出现了对
逆概率加权
我们仍然从后门调整公式开始推导。后门调整公式可写作:
那么根据贝叶斯条件概率公式,我们可以进一步写成
如此一来就推导出逆概率加权的最终公式:
以上一节辛普森悖论的例子来进行说明。辛普森悖论的问题如下图数据所示(数据为心脏病恢复的比例):单独看男性和单独看女性的数据,都是服药组比未服药组的恢复率高,但是合起来总数,则是未服药组比服药组恢复率高。
这个问题的因果图是如下图所示(这里简化去掉了外生变量):
为了使用逆概率加权公式,我们首先要得出
现在假设我们想求
所以根据公式(3)最终可以得到
小结
本节介绍了三种具体的干预方法:后门调整、前门调整、逆概率加权。后门调整和前门调整公式都是通过基本的概率定理和do运算的性质推导出,中心思想是把do运算全部消灭掉,让我们可以只通过观测数据来估算干预的结果。本节题图来源于《为什么》[1]一书第七章,本节后门调整公式推导部分参考了《为什么》一书第七章,前门调整公式和逆概率加权参考了《Causal Inference in Statistics: A Primer》[2]一书第三章。吸烟与肺癌的例子参考了《Causality: Models, Reasoning and Inference》[3]一书第三章。
值得注意的是,原书《Causal Inference in Statistics: A Primer》在介绍逆概率加权公式对辛普森悖论问题的举例时,出现了几处明显的错误,导致最终计算的结果出现较大问题。首先在第74页作者给出了
其次,在计算
原书Table 3.5的四个概率值加起来为
有兴趣的读者可以替我检查一下,是我错了,还是原书错了。
参考
- ^朱迪亚·珀尔,达纳·麦肯齐 著,江生,于华 译,“为什么:关于因果关系的新科学”,中信出版集团,2019.
- ^Judea Pearl, Madelyn Glymour, and Nicholas Jewell, "Causal Inference in Statistics: A Primer",Wiley, 2016
- ^Judea Pearl, "Causality: Models, Reasoning and Inference", Cambridge University Press, 2009