版权:转载前请联系作者获得授权
参考书籍:《统计因果推理入门》-Judea Pearl
文章目录
第一章 建立因果模型形式化因果假设
构造因果模型
边缘独立: P(A|B)=P(A)
条件独立: P(A|B,C)=P(A|C)
此时的A、B、C为变量,事件与之类似。例如 P(X=x|Y=y)=P(X=x)
全概率公式:P(A)=P(A,B1)+P(A,B2)+…+P(A,Bn)
贝叶斯公式:P(A|B)=[P(B|A)P(A)]/P(B)
相关性的三种来源:
(1)因果机制
(2)混杂因子
(3)样本选择偏差
相关性的表示方法 c o r r ( x , y ) = c o v ( x , y ) σ x σ y = E [ ( X − μ x ) ( Y − μ y ) ] σ x σ y corr(x,y)=\frac{cov(x,y)}{\sigma x \sigma y}=\frac{E[(X-\mu x)(Y-\mu y)]}{\sigma x \sigma y} corr(x,y)=σxσycov(x,y)=σxσyE[(X−μx)(Y−μy)]
1、图模型
有向无环图(Directed acyclic graph,DAG) 图形化的结构因果模型,能有效地表达联合概率分布,但不知道关联的强度或性质。
2、结构因果模型
(Structural causal model,SCM)= 变量集 + 函数
= U + V + f U + V + f U+V+f
- U U U (外生变量):没有祖先节点。有时被称为“误差项”或“省略因素”
- V V V(内生变量):如果知道每个 U U U的值,根据 f f f 可以得到每个 V V V。有时被称为“可测变量”。
- f f f : f = f x : W x − > X ∣ X ∈ V f={f_x}:W_x->X|X∈V f=fx:Wx−>X∣X∈V 其中 W x ⊆ ( U ∪ V ) − X W_x⊆(U∪V)-{X} Wx⊆(U∪V)−X
一个图模型可以实例化为不同的结构因果模型
3、直接原因与潜在原因
如果X是Y的子节点,那么Y是X的直接原因;
如果X是Y的后代,那么Y是X的潜在原因。
4、乘积分解法则
P ( x 1 , x 2 , . . . , x n ) = ∏ i P ( x i ∣ p a i ) P(x_1,x_2,...,x_n)=\prod_i P(x_i|pa_i) P(x1,x2,...,xn)=∏iP(xi∣pai)
联合分布=条件分布的乘积
第二章 联系因果模型结构与数据特征
检验数据集是不是符合该因果模型
1、三种基本结构
链结构中的条件独立性
A和C可能互相依赖
A改变时,B可能改变,从而引起C可能改变。
在B的条件下,A和C是独立的
以B为条件时,基于B的值将数据过滤划分为不同的组,分别比较B=
b
1
b_1
b1, B=
b
2
b_2
b2时的情况,当A变化时,
U
B
U_B
UB的值随之变化使B分别保持为
b
1
b_1
b1和
b
2
b_2
b2,而C只受B和
U
C
U_C
UC的影响,可以得出在这两组中,X与Z独立。
分叉结构的条件独立性
A和C可能互相依赖
当B发生变化时,A会发生变化,C会发生变化。那么当B改变时,A和C可能会一起发生变化,也可能不会。
在B的条件下,A和C是独立的
由于B值不变,所以A和C的值不会随着B的变化而变化,只随
U
A
U_A
UA和
U
C
U_C
UC变化,由于
U
A
U_A
UA和
U
C
U_C
UC独立,所以A和C独立。
对撞结构的独立性
A和C独立
A和C分别只受
U
A
U_A
UA和
U
C
U_C
UC影响,而
U
A
U_A
UA和
U
C
U_C
UC独立。
在B的条件下,A和C互相依赖
回到以条件变量的值来过滤的定义上,由于B一直取相同的值,A值的任何变化必须通过C值的变化来补偿,否则B会改变。
2、d-分离
d-分离:两个变量任何路径都被阻断,则这两个变量绝对独立
d-连通:两个变量之间存在一条路径没有被阻断,则这两个变量可能相互依赖
3、模型检验和因果搜索
(1)模型中每个d-分离条件应与数据中的条件独立性一致
(2)对模型假设检验
具有不可区分蕴涵式的一组图被称为等价类,有相同的骨架和d分离条件集。
第三章 利用假设和数据解决因果问题
使用因果模型进行预测
1、随机对照试验
被认为是统计学中的黄金准则。
在一个正确的随机对照试验中,除了输入变量,所有影响输出变量的因素要么是不变的,要么是随机变化的,因此输出变量的任何改变必然由这一输入变量引起。
随机对照试验不可行时,研究人员实施观察性研究,仅记录数据,而不是控制数据。
2、干预
一个模型中的一个变量时,固定这个变量的值,删除图模型中指向该变量的所有边。这意味着改变了系统,其他变量的值通常因此而变化,并且对 X X X消除父节点的影响。
P ( Y = y ∣ X = x ) P(Y=y|X=x) P(Y=y∣X=x) 反映了在 X X X的值都是 x x x的个体上 Y Y Y的总体分布;
P ( Y = y ∣ d o ( X = x ) ) P(Y=y|do(X=x)) P(Y=y∣do(X=x)) 反映了群体中的每个个体均将 X X X值固定为 x x x时, Y Y Y的总体分布。
3、校正公式
P ( Y = y ∣ d o ( X = x ) ) = P m 为修改后模型的条件概率 P m ( Y = y ∣ X = x ) P(Y=y|do(X=x))\overset{P_m为修改后模型的条件概率}{=}P_m(Y=y|X=x) P(Y=y∣do(X=x))=Pm为修改后模型的条件概率Pm(Y=y∣X=x)
计算因果效应的关键在于观察操纵概率 P m P_m Pm,具有 P P P的两个基本属性。
(1) Z Z Z值的确定过程 P ( Z = z ) P(Z=z) P(Z=z)不变。
(2) Y Y Y对 X X X和 Z Z Z的响应函数 P ( Y = y ∣ Z = z , X = x ) P(Y=y|Z=z,X=x) P(Y=y∣Z=z,X=x)不变。
得到 X X X对 Y Y Y的因果效应为
(1)条件概率表示形式 P ( Y = y ∣ d o ( X = x ) ) = ∑ z P ( Y = y ∣ X = x , Z = z ) P ( Z = z ) P(Y=y|do(X=x))=\sum_z P(Y=y|X=x,Z=z)P(Z=z) P(Y=y∣do(X=x))=∑zP(Y=y∣X=x,Z=z)P(Z=z)
(2)联合概率表示形式 P ( y ∣ d o ( x ) ) = ∑ z P ( X = x , Y = y , Z = z ) P ( X = x ∣ Z = z ) P(y|do(x))=\sum_z \frac{P(X=x,Y=y,Z=z)}{P(X=x|Z=z)} P(y∣do(x))=∑zP(X=x∣Z=z)P(X=x,Y=y,Z=z) 其中 P ( X = x ∣ Z = z ) P(X=x|Z=z) P(X=x∣Z=z)被称为倾向分数
X X X的父节点集合会包含不可观察的变量,使得我们无法计算校正公式中的条件概率,后续内容可以看到,可以对模型中其他变量进行校正,代替 P A ( X ) PA(X) PA(X)中不可观察的变量。
平均因果效应(Average Causal Effect,ACE) = P ( Y = 1 ∣ d o ( X = 1 ) ) = P ( Y = 1 ∣ d o ( X = 0 ) ) > 0 =P(Y=1|do(X=1))=P(Y=1|do(X=0))>0 =P(Y=1∣do(X=1))=P(Y=1∣do(X=0))>0 则表明进行 X = 1 X=1 X=1操作具有明显的积极作用。
后门准则
Z
Z
Z可观测且不为
X
X
X的后代,并且
Z
Z
Z阻断了
X
X
X和
Y
Y
Y之间每条指向
X
X
X的路径。
校正公式为 P ( Y = y ∣ d o ( X = x ) ) = ∑ z P ( Y = y ∣ X = x , Z = z ) P ( Z = z ) P(Y=y|do(X=x))=\sum_z P(Y=y|X=x,Z=z)P(Z=z) P(Y=y∣do(X=x))=∑zP(Y=y∣X=x,Z=z)P(Z=z), P A ( X ) PA(X) PA(X)天然满足后门准则
特殊情况 模型中没有从 X X X到 Y Y Y的后门路径,则空集满足准则,不需要校正。即 P ( y ∣ d o ( x ) ) = P ( y ∣ x ) P(y|do(x))=P(y|x) P(y∣do(x))=P(y∣x)
前门准则
由于后门变量
U
U
U是不可观测的,于是通过可观测的中介变量
Z
Z
Z连续应用两次后门准则来评估
X
X
X对
Y
Y
Y的因果效应。
第一次后门准则:由于没有从
X
X
X到
Z
Z
Z的后门路径,所以
X
X
X到
Z
Z
Z之间的因果效应是可识别的。
P
(
Z
=
z
∣
d
o
(
X
=
x
)
)
=
P
(
Z
=
z
∣
X
=
x
)
P(Z=z|do(X=x))=P(Z=z|X=x)
P(Z=z∣do(X=x))=P(Z=z∣X=x)
第二次后门准则:由于
Z
Z
Z到
Y
Y
Y的后门路径可以通过以
X
X
X为条件来阻断。所以
Z
Z
Z到
Y
Y
Y的因果效应是可识别的。
P
(
Y
=
y
∣
d
o
(
Z
=
z
)
)
=
∑
x
P
(
Y
=
y
∣
Z
=
z
,
X
=
x
)
P
(
X
=
x
)
P(Y=y|do(Z=z))=\sum_x P(Y=y|Z=z,X=x)P(X=x)
P(Y=y∣do(Z=z))=x∑P(Y=y∣Z=z,X=x)P(X=x)
将两部分连接起来有
P
(
Y
=
y
∣
d
o
(
X
=
x
)
)
=
∑
z
P
(
Y
=
y
∣
d
o
(
Z
=
z
)
)
P
(
Z
=
z
∣
d
o
(
X
=
x
)
)
P(Y=y|do(X=x))=\sum_zP(Y=y|do(Z=z))P(Z=z|do(X=x))
P(Y=y∣do(X=x))=z∑P(Y=y∣do(Z=z))P(Z=z∣do(X=x))
校正公式为
P
(
Y
=
y
∣
d
o
(
X
=
x
)
)
=
∑
z
∑
x
′
P
(
Y
=
y
∣
Z
=
z
,
X
=
x
′
)
P
(
X
=
x
′
)
P
(
Z
=
z
∣
X
=
x
)
P(Y=y|do(X=x))=\sum_z\sum_{x'} P(Y=y|Z=z,X=x')P(X=x')P(Z=z|X=x)
P(Y=y∣do(X=x))=∑z∑x′P(Y=y∣Z=z,X=x′)P(X=x′)P(Z=z∣X=x)
条件干预(Z-特定效应)
校正公式为 P ( Y = y ∣ d o ( X = g ( Z ) ) ) = ∑ z P ( Y = y ∣ d o ( X = x ) , Z = z ) P ( Z = z ) P(Y=y|do(X=g(Z)))=\sum_zP(Y=y|do(X=x),Z=z)P(Z=z) P(Y=y∣do(X=g(Z)))=∑zP(Y=y∣do(X=x),Z=z)P(Z=z)
逆概率加权
假设已知函数 P ( X = x ∣ Z = z ) P(X=x|Z=z) P(X=x∣Z=z)且可以利用它来生成仿真样本。且 Z Z Z满足后门准则。
校正公式为 P ( y ∣ d o ( x ) ) = ∑ z P ( X = x , Y = y , Z = z ) P ( X = x ∣ Z = z ) P(y|do(x))=\sum_z \frac{P(X=x,Y=y,Z=z)}{P(X=x|Z=z)} P(y∣do(x))=∑zP(X=x∣Z=z)P(X=x,Y=y,Z=z)
其中总体数据中的每个 ( X = x , Y = y , Z = z ) (X=x,Y=y,Z=z) (X=x,Y=y,Z=z)的概率被因子 1 P ( X = x ∣ Z = z ) \frac{1}{P(X=x|Z=z)} P(X=x∣Z=z)1放大了,因此被称为逆概率加权。
将重点放在当样本数量无限增加时会收敛到真实因果效应的估计。
中介
当 Z Z Z是 X X X和 Y Y Y的中介变量时,将 X X X的值从 x x x变为 x ′ x' x′后,对 Y Y Y的直接受控效应(Controlled Direct Effect, CDE)
C D E = P ( Y = y ∣ d o ( X = x ) , d o ( Z = z ) ) − P ( Y = y ∣ d o ( X = x ′ ) , d o ( Z = z ) ) CDE=P(Y=y|do(X=x),do(Z=z))-P(Y=y|do(X=x'),do(Z=z)) CDE=P(Y=y∣do(X=x),do(Z=z))−P(Y=y∣do(X=x′),do(Z=z))
第四章 反事实的分析
这一部分比较省略后续待补充
反事实语句”在 U = u U=u U=u的情况下,若 X X X当初取值 x x x,则 Y Y Y取值 y y y“,记做 Y x ( u ) = y Y_x(u)=y Yx(u)=y
三步计算法
(1)用证据 E = e E=e E=e确定 U U U的值。
(2)修改模型 M M M,移除变量 X X X出现在左边的方程,用 X = x X=x X=x替换它们,得到修正的模型 M x M_x Mx。
(3)使用修正后的模型 M x M_x Mx和 U U U值计算 Y Y Y的值,即反事实的结果。