gis中的加权求和工具在哪里_因果推理初探（5）——干预工具（上）

最新推荐文章于 2023-03-09 16:33:34 发布

psychonaut

最新推荐文章于 2023-03-09 16:33:34 发布

阅读量453

点赞数

文章标签： gis中的加权求和工具在哪里

本文链接：https://blog.csdn.net/weixin_36079387/article/details/112482008

版权

本文详细介绍了因果推理中的后门调整、前门调整和逆概率加权方法，通过实例和公式推导阐述如何在实际问题中估算变量间的因果效应，强调仅使用观测数据即可进行干预分析。

摘要由CSDN通过智能技术生成

本节将延续上一节学习的干预的有关概念，开始深入介绍几种干预的工具：后门调整、前门调整、逆概率加权等。本节将有大量公式来袭，请准备草稿纸或提前绕道~

在上一节最后，我们推导出有关干预的重要公式——调整公式。它的形式如下：

这个公式让我们可以通过观测到的数据就能控制

或者调整

。更一般地，假设我们用

表示变量

的父节点集，那么我们还可以得到如下更一般的

因果法则：

给定一个因果图
，并用

表示

的父节点集，那么

对

的因果关系可以表示为

其中
是

所有可能取的值中的一个。根据贝叶斯法则，上式也可以写作

在后续的表述中，为了简化符号，我们将

简写为

，我们将

也简写为

。

以上的调整公式告诉我们，如果我们要知道两个变量间的因果关系，比如

对

的因果关系，那么我们可以通过调整

的父节点（集）来进行。但是很多时候我们并不能观测所有需要知道的父节点（集）。所以我们必须诉诸其他节点来分析因果关系。

后门准则就是其中一种重要的方法。在本系列《因果推理初探（3）》中已经对后门准则进行了初步介绍。在本节中，我们将从继续干预的角度，对后门准则进行更加深入的理解。

后门调整

我们首先给出 后门准则的标准定义：
给定一个有向无环图
，以及

中的一对有序变量

和

，如果一组变量

中的节点都不是

的后代节点，并且以

为条件会阻断所有

和

之间的后门路径，那么变量

满足关于

的后门准则

进一步的，引出后门调整公式，也就是上一节最后推出的调整公式。

如果变量
满足关于

的后门准则，那么

对

的因果关系可以写作：

用如下因果图为例简要说明。假如我们希望估计

对

的因果效应，但我们无法取得有关

的数据。为了阻断

到

的后门路径，我们只能对

进行调整，因为

不是

的后代，

可以将路径

阻断，因此

满足后门准则。

图1：后门准则示例一

所以根据后门调整公式，我们应该计算：

再看下图，如果我们还是希望估计

对

的因果效应。我们应该调整哪个节点呢？

图2：后门准则示例二

回顾第3节中介绍的混杂及判断方法，我们很容易得知，

与

之间的因果关系不存在混杂，

与

之间也没有后门路径（注意

不是后门路径，因为箭头方向是

到

，而不是

到

）。所以实际上，对

进行干预的结果就等于以

为条件的结果，即

。但

是一个对撞子，如果对

进行调整，会打开这条路径。

但是假如，我们还就真需要以

为条件怎么办呢？比如说我们就希望知道当

时，

与

之间的因果关系。这时候我们要做的就只能是

换一个变量来进行调整。我们可以对

来进行调整。根据调整公式：

特别注意以上公式等号右边，

的条件概率也加上了

，这是因为以

这个对撞子为条件，

和

就不再是独立的了。

即便如此，后门准则也不是万能的。所以除了后门准则，还有一个分析因果关系的法则叫前门准则。

前门调整

有关前门准则的例子，无一少得了有关吸烟与肺癌关系的这个经典例子。这个例子的因果图如下图所示。遗憾的是，我们无法收集吸烟基因

的数据，所以我们无法使用后门准则来阻断后门路径

。在这种情况下，我们可以引入前门准则：首先，我们观测“吸烟”对“焦油沉积”的平均因果效应；然后，我们观测“焦油沉积”对“癌症”的平均因果效应；最后我们将两者联立起来求出“吸烟”对“癌症”的因果效应。

图3：前门准则示例

首先，

对

的因果效应是直接可以通过数据得到的，没有混杂，没有后门，也不需要用后门路径，所以直接可以得到

接下来，

对

的因果效应，两者存在一个共因

，因此存在混杂，可以用后门路径调整，但由于

是未观测的变量，所以我们对

进行调整，即以

为条件，来阻断

，根据后门调整公式可得：

那么接下来我们就可以用以上两个公式来一步步推导

。

<Step 1>

这一步是根据

全概率公式：

如果觉得看不出来，可以把

用手捂住不看，那么

就相当于全概率公式中的

，

就是全概率公式中的

。接下来，下一步：

<Step 2>

这一步是因为对

进行干预后，以

和

为条件的

的条件概率是不变的。这在推导后门准则时已经提到过（可回顾《因果推理初探（4）》中后门准则的推导）。

<Step 3>

这一步我们又去掉了一个do。这是来源于本节公式(1)，因为

和

之间具有直接的因果关系，没有混杂，也没有后门路径。所以可以去掉do。

<Step 4>

这一步又去掉一个

，因为

和

之间没有直接的因果路径，所以对

的干预没有影响到

的概率分布。

<Step 5>

第五步出现了较大的变化。但是仔细看看，其实与第一步是一回事。也是根据全概率公式，把

可取的值都做了一个加和。这里为了跟原来公式中的

进行区分，把

可取的值换成了

。

<Step 6>

这一步又去掉了一个do，理由和第二步一样。

<Step 7>

最后这一步直接去掉了

，理由和第四步一样。这样我们就最终得到了一个等号右边完全没有do运算的公式，这就是

前门调整公式：

注意这个公式中出现了

，这是因为和前面的

互相区分，也就是说第二项的

要遍历所有值计算，求和以后，再和

的每一个可能值对应的第一项进行相乘。

为了更好地展示前门调整公式如何应用，我们使用之前提到的吸烟、焦油沉积和吸烟基因的例子来进行说明。吸烟

、吸烟基因

、焦油沉积

和患癌

的关系如图3所示。假设我们能够观测除了

以外的所有变量的数据，为简化计算，所有变量都是二值的，我们希望估计

的值。假设我们得到的观测数据如下表所示。

图4：前门调整示例——吸烟与患癌

表中第二第三列给出的两列数据都是比例值，并且都进行了归一化。第二列是

和

的联合概率，第三列是给定

和

，

的条件概率。从这个表上的数据看，烟草公司得出了一个结论，那就是

焦油沉积可以降低患癌的概率。他们的理由如下，对于吸烟的人，焦油沉积使患癌的几率从90%降低到85%，对于不吸烟的人，焦油沉积使患癌的几率从10%降低到5%，所以无论是否吸烟，焦油沉积都对降低癌症起到了积极的作用，而吸烟是获得这些焦油沉积的一种非常有效的方法。

这听起来简直就是歪理。在前门调整出现以前，似乎这个问题还真的被争论了很多年。但前门调整方法就解决了这个矛盾的问题。根据前门调整公式可以进行如下的计算：

意外的是，计算结果说明，吸烟还真的比不吸烟得癌症的概率低。这似乎是与预期相反的结果。但是以上这个例子的模型和数据都不是反映现实的，而是为了演示前门调整公式来设计的。

最后，我们总结前门准则和前面调整的定义如下：

如果变量
满足：

1）
阻断了所有

到

之间的路径；

2）
到

之间没有未阻断的路径；

3）
到

之间所有的后门路径都被

阻断，

那么我们称
满足有序变量

的前门准则。

更进一步地，前门调整的概念是

如果
满足关于有序变量

的前门准则，并且如果

，那么

对于

的因果关系就可以被如下的公式估计：

前门调整和后门调整神奇的地方就在于，我们在消除了do运算的情况下进行了干预，也就是说我们仅仅使用观测数据，仅仅使用已知的分布，就能够估计变量之间的因果效应。从理论上讲，这两种方法已经足够用于估计变量之间的因果关系，但是从实践中看，这两种方法还有一些困难。比如前门和后门调整公式中，都出现了对

的概率求和，也就是说我们必须将

的每一种可取的值罗列出来计算概率然后求和。如果

的可取值非常多的话，这个求和也是计算量很大的。借助

逆概率加权（Inverse ProbabilityWeighing）这个方法，我们可以适当地避开这个问题。

逆概率加权

我们仍然从后门调整公式开始推导。后门调整公式可写作：

接下来我们将等号右边的分子分母同时乘以一个

可以得到

那么根据贝叶斯条件概率公式，我们可以进一步写成

如此一来就推导出逆概率加权的最终公式：

以上一节辛普森悖论的例子来进行说明。辛普森悖论的问题如下图数据所示（数据为心脏病恢复的比例）：单独看男性和单独看女性的数据，都是服药组比未服药组的恢复率高，但是合起来总数，则是未服药组比服药组恢复率高。

图5：辛普森悖论回顾（数据表示心脏病恢复的比例）

这个问题的因果图是如下图所示（这里简化去掉了外生变量）：

图6：辛普森悖论因果图

为了使用逆概率加权公式，我们首先要得出

、

三个变量的联合概率分布。这个通过观测数据的统计就可以轻易获得。假设我们得到的数据如下：

图7：辛普森悖论联合概率分布

现在假设我们想求

的干预结果，比如

，那么我们根据

可得

所以根据公式(3)最终可以得到

小结

本节介绍了三种具体的干预方法：后门调整、前门调整、逆概率加权。后门调整和前门调整公式都是通过基本的概率定理和do运算的性质推导出，中心思想是把do运算全部消灭掉，让我们可以只通过观测数据来估算干预的结果。本节题图来源于《为什么》^[1]一书第七章，本节后门调整公式推导部分参考了《为什么》一书第七章，前门调整公式和逆概率加权参考了《Causal Inference in Statistics: A Primer》^[2]一书第三章。吸烟与肺癌的例子参考了《Causality: Models, Reasoning and Inference》^[3]一书第三章。

值得注意的是，原书《Causal Inference in Statistics: A Primer》在介绍逆概率加权公式对辛普森悖论问题的举例时，出现了几处明显的错误，导致最终计算的结果出现较大问题。首先在第74页作者给出了

的条件概率表，但其实根据前一页推导的逆概率加权公式，我们只需要

，并不需要

。并且书中计算出的结果也有问题。

图8：原书74页错误一

其次，在计算

时，书中再次出现了低级错误，

应该等于0.247，而不是0.233。这导致最后计算的结果也接连出现了错误。

图9：原书74页错误二

原书Table 3.5的四个概率值加起来为

，正确的计算结果应该是

。

有兴趣的读者可以替我检查一下，是我错了，还是原书错了。

参考

^朱迪亚·珀尔，达纳·麦肯齐著，江生，于华译，“为什么：关于因果关系的新科学”，中信出版集团，2019.
^Judea Pearl, Madelyn Glymour, and Nicholas Jewell, "Causal Inference in Statistics: A Primer",Wiley, 2016
^Judea Pearl, "Causality: Models, Reasoning and Inference", Cambridge University Press, 2009