gis中的加权求和工具在哪里_因果推理初探(5)——干预工具(上)

本节将延续上一节学习的干预的有关概念,开始深入介绍几种干预的工具:后门调整前门调整逆概率加权等。本节将有大量公式来袭,请准备草稿纸或提前绕道~

在上一节最后,我们推导出有关干预的重要公式——调整公式。它的形式如下:

这个公式让我们可以通过观测到的数据就能控制
或者调整
。更一般地,假设我们用
表示变量
的父节点集,那么我们还可以得到如下更一般的
因果法则
给定一个因果图
,并用
表示
的父节点集,那么
的因果关系可以表示为

其中
所有可能取的值中的一个。根据贝叶斯法则,上式也可以写作

在后续的表述中,为了简化符号,我们将

简写为
,我们将
也简写为

以上的调整公式告诉我们,如果我们要知道两个变量间的因果关系,比如

的因果关系,那么我们可以通过调整
的父节点(集)来进行。但是很多时候我们并不能观测所有需要知道的父节点(集)。所以我们必须诉诸其他节点来分析因果关系。
后门准则就是其中一种重要的方法。在本系列《因果推理初探(3)》中已经对后门准则进行了初步介绍。在本节中,我们将从继续干预的角度,对后门准则进行更加深入的理解。

后门调整

我们首先给出 后门准则的标准定义:
给定一个有向无环图
,以及
中的一对有序变量
,如果一组变量
中的节点都不是
的后代节点,并且以
为条件会阻断所有
之间的后门路径,那么变量
满足关于
的后门准则

进一步的,引出后门调整公式,也就是上一节最后推出的调整公式。

如果变量
满足关于
的后门准则,那么
的因果关系可以写作:

用如下因果图为例简要说明。假如我们希望估计

的因果效应,但我们无法取得有关
的数据。为了阻断
的后门路径,我们只能对
进行调整,因为
不是
的后代,
可以将路径
阻断,因此
满足后门准则。

3dc94a599836d3d3c40b711112633aad.png
图1:后门准则示例一

所以根据后门调整公式,我们应该计算:

再看下图,如果我们还是希望估计
的因果效应。我们应该调整哪个节点呢?

7affa04b7bc1fa5b29a474d197898cb1.png
图2:后门准则示例二

回顾第3节中介绍的混杂及判断方法,我们很容易得知,

之间的因果关系不存在混杂,
之间也没有后门路径(注意
不是后门路径,因为箭头方向是
,而不是
)。所以实际上,对
进行干预的结果就等于以
为条件的结果,即
。但
是一个对撞子,如果对
进行调整,会打开这条路径。

但是假如,我们还就真需要以

为条件怎么办呢?比如说我们就希望知道当
时,
之间的因果关系。这时候我们要做的就只能是
换一个变量来进行调整。我们可以对
来进行调整。根据调整公式:

特别注意以上公式等号右边,

的条件概率也加上了
,这是因为以
这个对撞子为条件,
就不再是独立的了。

即便如此,后门准则也不是万能的。所以除了后门准则,还有一个分析因果关系的法则叫前门准则

前门调整

有关前门准则的例子,无一少得了有关吸烟与肺癌关系的这个经典例子。这个例子的因果图如下图所示。遗憾的是,我们无法收集吸烟基因

的数据,所以我们无法使用后门准则来阻断后门路径
。在这种情况下,我们可以引入前门准则:首先,我们观测“吸烟”对“焦油沉积”的平均因果效应;然后,我们观测“焦油沉积”对“癌症”的平均因果效应;最后我们将两者联立起来求出“吸烟”对“癌症”的因果效应。

1ac7a978c4c10e516bbaaa3590106d58.png
图3:前门准则示例

首先,

的因果效应是直接可以通过数据得到的,没有混杂,没有后门,也不需要用后门路径,所以直接可以得到

接下来,
的因果效应,两者存在一个共因
,因此存在混杂,可以用后门路径调整,但由于
是未观测的变量,所以我们对
进行调整,即以
为条件,来阻断
,根据后门调整公式可得:

那么接下来我们就可以用以上两个公式来一步步推导

<Step 1>

这一步是根据
全概率公式

如果觉得看不出来,可以把

用手捂住不看,那么
就相当于全概率公式中的
就是全概率公式中的
。接下来,下一步:

<Step 2>

这一步是因为对

进行干预后,以
为条件的
的条件概率是不变的。这在推导后门准则时已经提到过(可回顾《因果推理初探(4)》中后门准则的推导)。

<Step 3>

这一步我们又去掉了一个do。这是来源于本节公式(1),因为

之间具有直接的因果关系,没有混杂,也没有后门路径。所以可以去掉do。

<Step 4>

这一步又去掉一个

,因为
之间没有直接的因果路径,所以对
的干预没有影响到
的概率分布。

<Step 5>

第五步出现了较大的变化。但是仔细看看,其实与第一步是一回事。也是根据全概率公式,把

可取的值都做了一个加和。这里为了跟原来公式中的
进行区分,把
可取的值换成了

<Step 6>

这一步又去掉了一个do,理由和第二步一样。

<Step 7>

最后这一步直接去掉了

,理由和第四步一样。这样我们就最终得到了一个等号右边完全没有do运算的公式,这就是
前门调整公式

注意这个公式中出现了

,这是因为和前面的
互相区分,也就是说第二项的
要遍历所有值计算,求和以后,再和
的每一个可能值对应的第一项进行相乘。

为了更好地展示前门调整公式如何应用,我们使用之前提到的吸烟、焦油沉积和吸烟基因的例子来进行说明。吸烟

、吸烟基因
、焦油沉积
和患癌
的关系如图3所示。假设我们能够观测除了
以外的所有变量的数据,为简化计算,所有变量都是二值的,我们希望估计
的值。假设我们得到的观测数据如下表所示。

74576d242ad13bf2c0bc98f39b5bc463.png
图4:前门调整示例——吸烟与患癌

表中第二第三列给出的两列数据都是比例值,并且都进行了归一化。第二列是

的联合概率,第三列是给定
的条件概率。从这个表上的数据看,烟草公司得出了一个结论,那就是
焦油沉积可以降低患癌的概率。他们的理由如下,对于吸烟的人,焦油沉积使患癌的几率从90%降低到85%,对于不吸烟的人,焦油沉积使患癌的几率从10%降低到5%,所以无论是否吸烟,焦油沉积都对降低癌症起到了积极的作用,而吸烟是获得这些焦油沉积的一种非常有效的方法。

这听起来简直就是歪理。在前门调整出现以前,似乎这个问题还真的被争论了很多年。但前门调整方法就解决了这个矛盾的问题。根据前门调整公式可以进行如下的计算:

意外的是,计算结果说明,吸烟还真的比不吸烟得癌症的概率低。这似乎是与预期相反的结果。但是以上这个例子的模型和数据都不是反映现实的,而是为了演示前门调整公式来设计的。

最后,我们总结前门准则和前面调整的定义如下:

如果变量
满足:

1)
阻断了所有
之间的路径;

2)
之间没有未阻断的路径;

3)
之间所有的后门路径都被
阻断,

那么我们称
满足有序变量
的前门准则。

更进一步地,前门调整的概念是

如果
满足关于有序变量
的前门准则,并且如果
,那么
对于
的因果关系就可以被如下的公式估计:

前门调整和后门调整神奇的地方就在于,我们在消除了do运算的情况下进行了干预,也就是说我们仅仅使用观测数据,仅仅使用已知的分布,就能够估计变量之间的因果效应。从理论上讲,这两种方法已经足够用于估计变量之间的因果关系,但是从实践中看,这两种方法还有一些困难。比如前门和后门调整公式中,都出现了对

的概率求和,也就是说我们必须将
的每一种可取的值罗列出来计算概率然后求和。如果
的可取值非常多的话,这个求和也是计算量很大的。借助
逆概率加权(Inverse ProbabilityWeighing)这个方法,我们可以适当地避开这个问题。

逆概率加权

我们仍然从后门调整公式开始推导。后门调整公式可写作:

接下来我们将等号右边的分子分母同时乘以一个
可以得到

那么根据贝叶斯条件概率公式,我们可以进一步写成

如此一来就推导出逆概率加权的最终公式:

以上一节辛普森悖论的例子来进行说明。辛普森悖论的问题如下图数据所示(数据为心脏病恢复的比例):单独看男性和单独看女性的数据,都是服药组比未服药组的恢复率高,但是合起来总数,则是未服药组比服药组恢复率高。

2268c04699a6ac1dddb93244c86e956e.png
图5:辛普森悖论回顾(数据表示心脏病恢复的比例)

这个问题的因果图是如下图所示(这里简化去掉了外生变量):

386d3da1e3be65741161c7fe94e429c0.png
图6:辛普森悖论因果图

为了使用逆概率加权公式,我们首先要得出

三个变量的联合概率分布。这个通过观测数据的统计就可以轻易获得。假设我们得到的数据如下:

71235ce893a73d983a528c8d852cb716.png
图7:辛普森悖论联合概率分布

现在假设我们想求

的干预结果,比如
,那么我们根据
可得

所以根据公式(3)最终可以得到

小结

本节介绍了三种具体的干预方法:后门调整、前门调整、逆概率加权。后门调整和前门调整公式都是通过基本的概率定理和do运算的性质推导出,中心思想是把do运算全部消灭掉,让我们可以只通过观测数据来估算干预的结果。本节题图来源于《为什么》[1]一书第七章,本节后门调整公式推导部分参考了《为什么》一书第七章,前门调整公式和逆概率加权参考了《Causal Inference in Statistics: A Primer》[2]一书第三章。吸烟与肺癌的例子参考了《Causality: Models, Reasoning and Inference》[3]一书第三章。

值得注意的是,原书《Causal Inference in Statistics: A Primer》在介绍逆概率加权公式对辛普森悖论问题的举例时,出现了几处明显的错误,导致最终计算的结果出现较大问题。首先在第74页作者给出了

的条件概率表,但其实根据前一页推导的逆概率加权公式,我们只需要
,并不需要
。并且书中计算出的结果也有问题。

90c577ba4d34b813626d44ef2f1a1ccd.png
图8:原书74页错误一

其次,在计算

时,书中再次出现了低级错误,
应该等于0.247,而不是0.233。这导致最后计算的结果也接连出现了错误。

aa230361a8787305ced79331f3f07a3c.png
图9:原书74页错误二

原书Table 3.5的四个概率值加起来为

,正确的计算结果应该是

有兴趣的读者可以替我检查一下,是我错了,还是原书错了。

参考

  1. ^朱迪亚·珀尔,达纳·麦肯齐 著,江生,于华 译,“为什么:关于因果关系的新科学”,中信出版集团,2019.
  2. ^Judea Pearl, Madelyn Glymour, and Nicholas Jewell, "Causal Inference in Statistics: A Primer",Wiley, 2016
  3. ^Judea Pearl, "Causality: Models, Reasoning and Inference", Cambridge University Press, 2009
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值