因果5-前门准则和do算子

最新推荐文章于 2025-04-23 21:36:40 发布

euzmin

最新推荐文章于 2025-04-23 21:36:40 发布

阅读量5k

点赞数 6

分类专栏：机器学习因果推理文章标签：算法机器学习

本文链接：https://blog.csdn.net/euzmin/article/details/120236381

版权

机器学习同时被 2 个专栏收录

7 篇文章

订阅专栏

因果推理

7 篇文章

订阅专栏

本文探讨了在存在未观测变量的复杂因果图中，如何利用Frontdoor调整和do-calculus准则识别因果效应。通过前门准则和数学证明，展示了如何通过中介变量M计算T到Y的因果影响，同时介绍了do-calculus的三条规则及其在frontdoor调整中的应用。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

上文我们提到了含有未观测变量的情况，在这种情况下，我们无法block所有后门路径，那么有没有办法可以不满足后门准则也能识别因果效应？（这章篇硬核，建议跟着推一遍）

Frontdoor Adjustment

如图1所示，W是未观测变量，如果我们能只计算T到Y的直接因果边，自然就能识别T到Y的因果关系了，Frontdoor Adjustment就是奔着这个目标去的，它指出只要T和Y直接有一个mediator（中介者）M，即使不满足后门准则，我们也能计算出因果效应，只要因果图满足Frontdoor criterion（前门准则）。在介绍前门准则前，我们先了解下mediator M的定义：

如果T到Y的所有直接因果路径全部需要通过M，则称一组变量集合M完全 mediate（中介）T到Y的效应，这样的情况称为 complete/full mediator（完全中介）。

Frontdoor criterion，如果：

M completely mediates T到Y的影响（所有T到Y的的因果路径都通过M
T到M没有 unblocked backdoor path
所有M 到 Y 的后门路径都被T blocked。

则变量集合满足关于T到Y的前门准则。下面我们根据前门准则对图1的因果效应进行识别。

图1.前门准则

只需要考虑以下三步：

识别T到M的因果效应
识别M到Y的因果效应
合并步骤1和2，识别T到Y的因果效应

首先考虑第一步，识别T到M的因果效应P(m|do(t))，因为Y是T-M的collider，所以Y block T-M的后门路径。因此根据后门调整可得：P(m|do(t))=P(m|t)

第二步，识别M到Y的效应：P(y|do(m))。因为T block M<-T<-W->Y，我们可以通过调整T满足后门标准： $P(y|do(m))=\sum_tP(y|m, t)P(t)$

第三步，由前两步得到T到Y的因果效应：

$P(y|do(t))=\sum_mP(m|do(t))P(y|do(m))$

其实就是求所以m取值下的T到Y的因果效应，全部加起来就是T到Y的真正因果效应了。

因此得到Frontdoor Adjustment，如果(T,M,Y)满足Frontdoor criterion 并且满足positivity 假设，则

$P(y|do(t))=\sum_mP(m|t)\sum_{t'}P(y|m,t')P(t')$

下面我们给出Frontdoor Adjustment的数学证明：

首先针对图1使用贝叶斯网络分解，得到

$P (w, t, m, y) = P (w) P (t ∣ w) P (m ∣ t) P (y ∣ w, m)$

然后使用truncated factorization，得到

$P (w, m, y ∣ d o (t)) = P (w) P (m ∣ t) P (y ∣ w, m)$

然后边缘化w和m，得到

$P(y|do(t))=\sum_mP(m|t)\sum_wP(y|w,m)P(w)$

我们的目标是把未观测变量w消去，只留下t，m，y。在上式中，我们想如果能将P(w)转化为P(w|m)，就能刚好消去w，结合图1可得P(w|t)=P(w|m,t)（y作为collider），于是上式可化为

$P(y|do(t))=\sum_mP(m|t)\sum_wP(y|w,m)\sum_{t'}P(w|t')P(t')$

$=\sum_mP(m|t)\sum_wP(y|w,m)\sum_{t'}P(w|t',m)P(t')=\sum_mP(m|t)\sum_{t'}P(t')\sum_wP(y|w,m)P(w|t',m)$

因为W和M已经d-separation T和Y，所以P(y|w,m)=P(y|w,m,t’)

$P(y|do(t))=\sum_mP(m|t)\sum_{t'}P(t')\sum_wP(y|w,m)P(w|t',m)=\sum_mP(m|t)\sum_{t'}P(t')\sum_wP(y|w,m,t')P(w|t',m)$

$=\sum_mP(m|t)\sum_{t'}P(t')\sum_wP(y,w|t',m)=\sum_mP(m|t)\sum_{t'}P(t')\sum_wP(y,w|t',m)$

$=\sum_mP(m|t)\sum_{t'}P(t')P(y|t',m)=\sum_mP(m|do(t))P(y|do(m))$

证毕。

do-calculus

如果T到Y之间既不满足后门准则，也不满足前门准则该怎么办？do-calculus能够识别任何可识别的因果量。为了学习do-calculus的规则，我们需要先定义一些术语。

$G_{\overline{X}}$ :移除G中所有指向X的边，即X没有parent

$G_{\underline{X}}$ :移除G中所有被X指向的边，即X没有descendent

$G_{\overline{Z(W)}}$ :移除Z指向W的所有边，即Z中没有W的parent

知道这三个术语后，我们学习do-calculus的三条规则，给定因果图G，分布P，不相交的三个变量集Y，T，Z和W，有下列规则：

Rule 1： ${\perp \!\!\! \perp}_{G_{\overline{T}}}Z|T,W$

Rule 2: ${\perp \!\!\! \perp}_{G_{\overline{T},\underline{Z}}}Z|T,W$

Rule 3: ${\perp \!\!\! \perp}_{G_{\overline{T},\overline{Z(W)}}}Z|T,W$

首先理解一下Rule 1，让我们考虑一种特殊的情况，do(t)为空集，则得到

Rule 1 with do(t) removed： ${\perp \!\!\! \perp}_{G} Z|W$ ，即d-separation定义，因此可得，Rule 1是 d-separation 到干预分布的泛化。

对于Rule 2，继续考虑特殊情况do(t)为空集，则得到

Rule 2 with do(t) removed： ${\perp \!\!\! \perp}_{G_{\underline{Z}}}Z|W$ ，即后门调整，因此可得，Rule 2是后门调整到干预分布的泛化。

对于Rule 3，继续考虑特殊情况do(t)为空集，则得到

Rule 3 with do(t) removed： ${\perp \!\!\! \perp}_{G_{\overline{Z(W)}}}Z|W$ ，首先看后面的if条件，当Z没有指向W的边时，给定W，Y和Z是d-separation的，那么这种情况下是否do(z)对y没有影响（Modularity）。