【Causality】do calculus原理

最新推荐文章于 2025-03-10 10:50:49 发布

板砖板砖我是兔子

最新推荐文章于 2025-03-10 10:50:49 发布

阅读量2.3k

点赞数 3

分类专栏： causality 文章标签：算法

本文链接：https://blog.csdn.net/qq_43749398/article/details/128526059

版权

causality 专栏收录该内容

4 篇文章

订阅专栏

本文介绍了do-calculus的基本概念，包括有向图、do算子以及do算子与条件的区别。重点讨论了后门准则和校正公式在因果效应识别中的应用，同时提到了前门准则作为另一种识别因果效应的方法。这些理论是因果推理和干预分析的关键工具。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

这部分主要讲了causal discovery的do-calculus理论。这是将干预的结果概率化表达的重要理论，是评估因果作用的主要方法。欢迎大家一起学习

理论

1 有向图

2 do算子

通过因果之梯，我们知道，如果想要把对因果的理解上升到“干预”的层面，就必须引入“干预”。我们用do算子来在概率分布层面表述这种动作。在 $D A G$ 中 $do(X_i)=x'_i$ 表示如下的操作：将 $D A G$ 中指向 $x_i$ 的有向边全部切断，且将 $X_i$ 的取值固定为常数 $x'_i$ 。如此操作，得到的新 $D A G$ 的联合分布可以记做 $P(x_1,x_2,...,x_n|do(X_i)=x_i)$ 。可以证明，干预后的联合分布为
$P(x_1,...,x_n|do(X_i)=x'_i)=\frac{P(x_1,...,x_n)}{P(x_i|Pa(x_i))} I(x_i=x'_i)$

3 do ≠ condition

如下图（1）所示，当 $x_1$ 是 $x_2$ 的原因（父节点）时， $P(X_2=x_2|X_1=x_1)=P(X_2=x_2|do(X_1)=x_1)$ ，因为在干预前，原因的状态原本就对应着相应的结果状态，改变原因的值不会影响这种对应关系。

但如图（2）所示，当 $x_1$ 是 $x_2$ 的结果（子节点），给定了结果，对应的原因状态的可能性是不变的，即人为的干预结果，并不影响原因的分布，所以$ $P(X_2=x_2|X_1=x_1)\ne P(X_2=x_2|do(X_1)=x_1)=P(X_2=x_2)$ ，根据因果边假设（causal edge assumption），从图像上来看，指向X_1的所有边都被删除了。

在这里插入图片描述

4 后门准则与The Adjustment Formula （校正公式）

根据 do 算子，便可以定义因果作用。比如二值的变量 $Z$ 对于 $Y$ 的平均因果作用（average causal effect）定义为
$\rightarrow Y)=E\left \{ Y|do(Z=1) \right \}-E\left \{ Y|do(Z=0) \right \}$
也就是激活 $Z$ 与不激活 $Z$ 之间的区别。

“可识别性” 这个概念将被频繁的使用。因果推断中的识别性，和传统统计中的识别性定义是一致的。统计中，如果两个不同的模型参数，对应不同的观测数据的分布，那么我们称模型的参数可以识别。这里，如果因果作用可以用观测数据的分布唯一的表示，那么我们称因果作用是可以识别的。

有关 $D$ -分离的概念请看图论。

在这里插入图片描述

后门准则：如图(1)，在 $D A G$ 中，如果如下条件满足：

$Z$ 中节点不是 $X$ 的后代；
$Z$ 阻断了 $(X, Y)$ 之间所有指向 $X$ 的路径（又称为后门路径），

则称变量集合 $Z$ 相对于变量有序对 $(X ， Y)$ 满足后门准则。且Pearl（1995）证明，若存在一个变量集合 $Z$ 相对于 $(X, Y)$ 满足后门准则，那么 $X$ 到 $Y$ 的因果作用是可以识别的。进行干预后，我们会得到新的图称作manipulated model，见图(2)，对应的概率记作 $P_m$ .

根据后门准则，有

$P_m(Z=z)=P(Z=z)$
$P_m(Y=y|X=x,Z=z)=P(Y=y|X=x,Z=z)$

因此，校正公式（又称作causal effect rule）得以满足，如下：
$\begin{aligned} P(Y=y|do(X)=x) & =\sum_{z}P(Y=y,Z=z|do(X=x)) \\ & = \sum_{z}P(Y=y|X=x,Z=z)P(Z=z)\\ & = \sum_{z}P(Y=y|X=x,Pa(x)=z)P(Pa(x)=z) \end{aligned}$

与 $A CE$ 识别公式相同，用 $Z$ 做调整，在分层加权求和求期望。

后门准则的例子（转载）

https://zhuanlan.zhihu.com/p/395623955

后门准则失败的例子

5 前门准则与The Adjustment Formula （校正公式）

在这里插入图片描述

前门准则：如图(1)，在 $D A G$ 中，如果满足下列条件：

$Z$ 切断了所有 $X$ 到 $Y$ 的直接路径
$X$ 到 $Z$ 没有后门路径
所有 $Z$ 到 $Y$ 的后门路径都被 $X$ 阻断。

如图， $P (Y = y ∣ X = x)$ 可以分解为两个后门 $P (Y = y ∣ Z = z)$ 和 $P (Z = z ∣ X = x)$ 。
对于 $P (Y = y ∣ Z = z)$ ，满足后门准则的变量有 $\left \{ X \right \}$ ，所以根据后门准则，
$P(Y=y|Z=z)=\sum_{x'}P(Y=y|Z=z,X=x')P(X=x')$
对于 $P (Z = z ∣ X = x)$ ，没有满足后门准则的变量，因此不变。则有
$\begin{aligned} P(Y=y|do(X)=x) & =\sum_{z}P(Y=y,Z=z|do(X=x)) \\ & = \sum_{z}P(Y=y|Z=z,do(X)=x)P(Z=z|do(X)=x)\\ & = \sum_{z}P(Y=y|do(Z=z))P(Z=z|do(X)=x)\\ & = \sum_{z}\sum_{x'}P(Y=y|Z=z,X=x')P(X=x')P(Z=z|X=x) \end{aligned}$
进而得到前门准则的校正公式为
$P(y|do(x))=\sum_{z}P(z|x)\sum_{x'}P(y|x',z)P(x')$
这两个准则的意义在于：（1）某些研究中，即使 $D A G$ 中的某些变量不可观测，我们依然可以从观测数据中估计出某些因果作用；（2）这两个准则有助于我们鉴别“混杂变量” 和设计观察性研究。

6 do calculus

6.1 基本术语

$G_{\overline{X} }$ ：移除 $G$ 中所有指向 $X$ 的边，即 $X$ 没有parent,也表示do(x)为空集；
$G_{\underline{X} }$ ：移除 $G$ 中所有从 $X$ 指出的边，即 $X$ 没有；descendant
$G_{\overline{Z(W)} }$ ：移除 $Z$ 指向 $W$ 的所有边，即 $Z$ 中没有 $W$ 的parent。
$A\perp B|C$ 指已知C的情况下A条件独立于B。

6.2 三条规则

Ignoring observations（d-separation）：如果 $G_{\overline{X} }$ 中 $Y\perp Z|X,W$ 。
$P (y ∣ d o (x), z, w) = P (y ∣ d o (x), w)$
Intervention/observation exchange（后门调整）：如果 $G_{\overline{X},\underline{Z} }$ 中 $Y\perp Z|X,W$ ，
$P (y ∣ d o (x), d o (z), w) = P (y ∣ d o (x), z, w)$
Ignoring interventions：如果 $G_{\overline{X,Z(W)}}$ 中 $Y\perp Z|X,W$ ，即 $Y$ 和 $Z$ 被 $W$ $D$ -separation。
$P (y ∣ d o (x), d o (z), w) = P (y ∣ d o (x), w)$

6.3 例子：计算 $P (c ∣ d o (s))$

在这里插入图片描述
$\begin{matrix} \begin{aligned} P(c|do(s)) & =\sum_{t}P(c, t|do(s)) \\ & = \sum_{t}P(c|t,do(s))P(t|do(s))\\ & = \sum_{t}P(c|do(t),do(s))P(t|s)\\ & = \sum_{t}P(c|do(t))P(t|s)\\ & = \sum_{t}\sum_{s'}P(c|do(t),s')P(s'|do(t))P(t|s)\\ & = \sum_{t}\sum_{s'}P(c|t,s')P(s'|do(t))P(t|s)\\ & = \sum_{t}\sum_{s'}P(c|t,s')P(s')P(t|s) \end{aligned} & \begin{aligned} & 1行.边缘分布公式 \\ & 2行.因子分解\\ & 3，4行.do(s)=空集，所以do(s)=s\\ & 5行.t和c后门被S阻断，因为T \leftarrow S \leftarrow G \rightarrow C，根据后门修正公式\\ & 6行.t是c的原因，改变t不会影响c对应的分布，还是原本的条件分布\\ & 7行.t是s的结果，人为干预结果不会影响原因的分布，因此do(t)与s无关 \end{aligned} \end{matrix}$