《统计因果推理入门》笔记

最新推荐文章于 2024-02-25 23:35:36 发布

壁花lhh

最新推荐文章于 2024-02-25 23:35:36 发布

阅读量360

点赞数

文章标签：笔记机器学习人工智能

本文链接：https://blog.csdn.net/bihuadashuju/article/details/130978402

版权

文章介绍了统计因果推理的基础概念，包括如何构建因果模型，如图模型和结构因果模型，以及如何利用这些模型解释变量间的因果关系。重点讨论了随机对照试验、干预和校正公式在解决因果问题中的作用，如后门准则和前门准则。此外，还提及了反事实分析在探索不同情境下的因果效应。

摘要由CSDN通过智能技术生成

版权：转载前请联系作者获得授权

参考书籍：《统计因果推理入门》-Judea Pearl

第一章建立因果模型形式化因果假设

构造因果模型

边缘独立： P(A|B)=P(A)

条件独立： P(A|B,C)=P(A|C)

此时的A、B、C为变量，事件与之类似。例如 P(X=x|Y=y)=P(X=x)

全概率公式：P(A)=P(A,B1)+P(A,B2)+…+P(A,Bn)

贝叶斯公式：P(A|B)=[P(B|A)P(A)]/P(B)

「一个模型」教你搞定贝叶斯和全概率公式

相关性的三种来源：

（1）因果机制

（2）混杂因子

（3）样本选择偏差

相关性的表示方法 $corr(x,y)=\frac{cov(x,y)}{\sigma x \sigma y}=\frac{E[(X-\mu x)(Y-\mu y)]}{\sigma x \sigma y}$

1、图模型

有向无环图（Directed acyclic graph,DAG）图形化的结构因果模型，能有效地表达联合概率分布，但不知道关联的强度或性质。

2、结构因果模型

（Structural causal model,SCM）= 变量集 + 函数

= $U + V + f$

$U$ （外生变量）：没有祖先节点。有时被称为“误差项”或“省略因素”
$V$ （内生变量）：如果知道每个 $U$ 的值，根据 $f$ 可以得到每个 $V$ 。有时被称为“可测变量”。
$f$ ： $f={f_x}:W_x->X|X∈V$ 其中 $W_x⊆(U∪V)-{X}$

一个图模型可以实例化为不同的结构因果模型

3、直接原因与潜在原因

如果X是Y的子节点，那么Y是X的直接原因；

如果X是Y的后代，那么Y是X的潜在原因。

4、乘积分解法则

$P(x_1,x_2,...,x_n)=\prod_i P(x_i|pa_i)$

联合分布=条件分布的乘积

第二章联系因果模型结构与数据特征

检验数据集是不是符合该因果模型

1、三种基本结构

链结构中的条件独立性

在这里插入图片描述

A和C可能互相依赖 A改变时，B可能改变，从而引起C可能改变。

在B的条件下，A和C是独立的 以B为条件时，基于B的值将数据过滤划分为不同的组，分别比较B= $b_1$ , B= $b_2$ 时的情况，当A变化时， $U_B$ 的值随之变化使B分别保持为 $b_1$ 和 $b_2$ ，而C只受B和 $U_C$ 的影响，可以得出在这两组中，X与Z独立。

分叉结构的条件独立性

在这里插入图片描述
A和C可能互相依赖 当B发生变化时，A会发生变化，C会发生变化。那么当B改变时，A和C可能会一起发生变化，也可能不会。

在B的条件下，A和C是独立的 由于B值不变，所以A和C的值不会随着B的变化而变化，只随 $U_A$ 和 $U_C$ 变化，由于 $U_A$ 和 $U_C$ 独立，所以A和C独立。

对撞结构的独立性

在这里插入图片描述

A和C独立 A和C分别只受 $U_A$ 和 $U_C$ 影响，而 $U_A$ 和 $U_C$ 独立。

在B的条件下，A和C互相依赖 回到以条件变量的值来过滤的定义上，由于B一直取相同的值，A值的任何变化必须通过C值的变化来补偿，否则B会改变。

2、d-分离

d-分离：两个变量任何路径都被阻断，则这两个变量绝对独立

d-连通：两个变量之间存在一条路径没有被阻断，则这两个变量可能相互依赖

3、模型检验和因果搜索

（1）模型中每个d-分离条件应与数据中的条件独立性一致

（2）对模型假设检验

具有不可区分蕴涵式的一组图被称为等价类，有相同的骨架和d分离条件集。

第三章利用假设和数据解决因果问题

使用因果模型进行预测

1、随机对照试验

被认为是统计学中的黄金准则。

在一个正确的随机对照试验中，除了输入变量，所有影响输出变量的因素要么是不变的，要么是随机变化的，因此输出变量的任何改变必然由这一输入变量引起。

随机对照试验不可行时，研究人员实施观察性研究，仅记录数据，而不是控制数据。

2、干预

一个模型中的一个变量时，固定这个变量的值，删除图模型中指向该变量的所有边。这意味着改变了系统，其他变量的值通常因此而变化，并且对 $X$ 消除父节点的影响。

$P (Y = y ∣ X = x)$ 反映了在 $X$ 的值都是 $x$ 的个体上 $Y$ 的总体分布；

$P (Y = y ∣ d o (X = x))$ 反映了群体中的每个个体均将 $X$ 值固定为 $x$ 时， $Y$ 的总体分布。

3、校正公式

$P(Y=y|do(X=x))\overset{P_m为修改后模型的条件概率}{=}P_m(Y=y|X=x)$

计算因果效应的关键在于观察操纵概率 $P_m$ ，具有 $P$ 的两个基本属性。

(1) $Z$ 值的确定过程 $P (Z = z)$ 不变。

(2) $Y$ 对 $X$ 和 $Z$ 的响应函数 $P (Y = y ∣ Z = z, X = x)$ 不变。

得到 $X$ 对 $Y$ 的因果效应为

(1)条件概率表示形式 $P(Y=y|do(X=x))=\sum_z P(Y=y|X=x,Z=z)P(Z=z)$

(2)联合概率表示形式 $P(y|do(x))=\sum_z \frac{P(X=x,Y=y,Z=z)}{P(X=x|Z=z)}$ 其中 $P (X = x ∣ Z = z)$ 被称为倾向分数

$X$ 的父节点集合会包含不可观察的变量，使得我们无法计算校正公式中的条件概率，后续内容可以看到，可以对模型中其他变量进行校正，代替 $P A (X)$ 中不可观察的变量。

平均因果效应(Average Causal Effect,ACE) $= P (Y = 1∣ d o (X = 1)) = P (Y = 1∣ d o (X = 0)) > 0$ 则表明进行 $X = 1$ 操作具有明显的积极作用。

后门准则

在这里插入图片描述
$Z$ 可观测且不为 $X$ 的后代，并且 $Z$ 阻断了 $X$ 和 $Y$ 之间每条指向 $X$ 的路径。

校正公式为 $P(Y=y|do(X=x))=\sum_z P(Y=y|X=x,Z=z)P(Z=z)$ ， $P A (X)$ 天然满足后门准则

特殊情况模型中没有从 $X$ 到 $Y$ 的后门路径，则空集满足准则，不需要校正。即 $P (y ∣ d o (x)) = P (y ∣ x)$

前门准则

在这里插入图片描述
由于后门变量 $U$ 是不可观测的，于是通过可观测的中介变量 $Z$ 连续应用两次后门准则来评估 $X$ 对 $Y$ 的因果效应。

第一次后门准则：由于没有从 $X$ 到 $Z$ 的后门路径，所以 $X$ 到 $Z$ 之间的因果效应是可识别的。
$P (Z = z ∣ d o (X = x)) = P (Z = z ∣ X = x)$
第二次后门准则：由于 $Z$ 到 $Y$ 的后门路径可以通过以 $X$ 为条件来阻断。所以 $Z$ 到 $Y$ 的因果效应是可识别的。
$P(Y=y|do(Z=z))=\sum_x P(Y=y|Z=z,X=x)P(X=x)$
将两部分连接起来有
$P(Y=y|do(X=x))=\sum_zP(Y=y|do(Z=z))P(Z=z|do(X=x))$
校正公式为 $P(Y=y|do(X=x))=\sum_z\sum_{x'} P(Y=y|Z=z,X=x')P(X=x')P(Z=z|X=x)$