《统计因果推理入门》笔记

文章介绍了统计因果推理的基础概念,包括如何构建因果模型,如图模型和结构因果模型,以及如何利用这些模型解释变量间的因果关系。重点讨论了随机对照试验、干预和校正公式在解决因果问题中的作用,如后门准则和前门准则。此外,还提及了反事实分析在探索不同情境下的因果效应。
摘要由CSDN通过智能技术生成

版权:转载前请联系作者获得授权

参考书籍:《统计因果推理入门》-Judea Pearl


第一章 建立因果模型形式化因果假设

构造因果模型

边缘独立: P(A|B)=P(A)

条件独立: P(A|B,C)=P(A|C)

此时的A、B、C为变量,事件与之类似。例如 P(X=x|Y=y)=P(X=x)

全概率公式:P(A)=P(A,B1)+P(A,B2)+…+P(A,Bn)

贝叶斯公式:P(A|B)=[P(B|A)P(A)]/P(B)

「一个模型」教你搞定贝叶斯和全概率公式

相关性的三种来源:

(1)因果机制

(2)混杂因子

(3)样本选择偏差

相关性的表示方法 c o r r ( x , y ) = c o v ( x , y ) σ x σ y = E [ ( X − μ x ) ( Y − μ y ) ] σ x σ y corr(x,y)=\frac{cov(x,y)}{\sigma x \sigma y}=\frac{E[(X-\mu x)(Y-\mu y)]}{\sigma x \sigma y} corr(x,y)=σxσycov(x,y)=σxσyE[(Xμx)(Yμy)]

1、图模型

有向无环图(Directed acyclic graph,DAG) 图形化的结构因果模型,能有效地表达联合概率分布,但不知道关联的强度或性质。

2、结构因果模型

(Structural causal model,SCM)= 变量集 + 函数

​ = U + V + f U + V + f U+V+f

  • U U U (外生变量):没有祖先节点。有时被称为“误差项”或“省略因素”
  • V V V(内生变量):如果知道每个 U U U的值,根据 f f f 可以得到每个 V V V。有时被称为“可测变量”。
  • f f f f = f x : W x − > X ∣ X ∈ V f={f_x}:W_x->X|X∈V f=fx:Wx>XXV 其中 W x ⊆ ( U ∪ V ) − X W_x⊆(U∪V)-{X} Wx(UV)X

一个图模型可以实例化为不同的结构因果模型

3、直接原因与潜在原因

如果X是Y的子节点,那么Y是X的直接原因;

如果X是Y的后代,那么Y是X的潜在原因。

4、乘积分解法则

P ( x 1 , x 2 , . . . , x n ) = ∏ i P ( x i ∣ p a i ) P(x_1,x_2,...,x_n)=\prod_i P(x_i|pa_i) P(x1,x2,...,xn)=iP(xipai)

联合分布=条件分布的乘积


第二章 联系因果模型结构与数据特征

检验数据集是不是符合该因果模型

1、三种基本结构

链结构中的条件独立性

在这里插入图片描述

A和C可能互相依赖 A改变时,B可能改变,从而引起C可能改变。

在B的条件下,A和C是独立的 以B为条件时,基于B的值将数据过滤划分为不同的组,分别比较B= b 1 b_1 b1, B= b 2 b_2 b2时的情况,当A变化时, U B U_B UB的值随之变化使B分别保持为 b 1 b_1 b1 b 2 b_2 b2,而C只受B和 U C U_C UC的影响,可以得出在这两组中,X与Z独立。

分叉结构的条件独立性

在这里插入图片描述
A和C可能互相依赖 当B发生变化时,A会发生变化,C会发生变化。那么当B改变时,A和C可能会一起发生变化,也可能不会。

在B的条件下,A和C是独立的 由于B值不变,所以A和C的值不会随着B的变化而变化,只随 U A U_A UA U C U_C UC变化,由于 U A U_A UA U C U_C UC独立,所以A和C独立。

对撞结构的独立性

在这里插入图片描述

A和C独立 A和C分别只受 U A U_A UA U C U_C UC影响,而 U A U_A UA U C U_C UC独立。

在B的条件下,A和C互相依赖 回到以条件变量的值来过滤的定义上,由于B一直取相同的值,A值的任何变化必须通过C值的变化来补偿,否则B会改变。

2、d-分离

d-分离:两个变量任何路径都被阻断,则这两个变量绝对独立

d-连通:两个变量之间存在一条路径没有被阻断,则这两个变量可能相互依赖

3、模型检验和因果搜索

(1)模型中每个d-分离条件应与数据中的条件独立性一致

(2)对模型假设检验

具有不可区分蕴涵式的一组图被称为等价类,有相同的骨架和d分离条件集。


第三章 利用假设和数据解决因果问题

使用因果模型进行预测

1、随机对照试验

被认为是统计学中的黄金准则。

在一个正确的随机对照试验中,除了输入变量,所有影响输出变量的因素要么是不变的,要么是随机变化的,因此输出变量的任何改变必然由这一输入变量引起。

随机对照试验不可行时,研究人员实施观察性研究,仅记录数据,而不是控制数据。

2、干预

一个模型中的一个变量时,固定这个变量的值,删除图模型中指向该变量的所有边。这意味着改变了系统,其他变量的值通常因此而变化,并且对 X X X消除父节点的影响。

P ( Y = y ∣ X = x ) P(Y=y|X=x) P(Y=yX=x) 反映了在 X X X的值都是 x x x的个体上 Y Y Y的总体分布;

P ( Y = y ∣ d o ( X = x ) ) P(Y=y|do(X=x)) P(Y=ydo(X=x)) 反映了群体中的每个个体均将 X X X值固定为 x x x时, Y Y Y的总体分布。

3、校正公式

P ( Y = y ∣ d o ( X = x ) ) = P m 为修改后模型的条件概率 P m ( Y = y ∣ X = x ) P(Y=y|do(X=x))\overset{P_m为修改后模型的条件概率}{=}P_m(Y=y|X=x) P(Y=ydo(X=x))=Pm为修改后模型的条件概率Pm(Y=yX=x)

计算因果效应的关键在于观察操纵概率 P m P_m Pm,具有 P P P的两个基本属性

(1) Z Z Z值的确定过程 P ( Z = z ) P(Z=z) P(Z=z)不变。

(2) Y Y Y X X X Z Z Z的响应函数 P ( Y = y ∣ Z = z , X = x ) P(Y=y|Z=z,X=x) P(Y=yZ=z,X=x)不变。

得到 X X X Y Y Y因果效应

(1)条件概率表示形式 P ( Y = y ∣ d o ( X = x ) ) = ∑ z P ( Y = y ∣ X = x , Z = z ) P ( Z = z ) P(Y=y|do(X=x))=\sum_z P(Y=y|X=x,Z=z)P(Z=z) P(Y=ydo(X=x))=zP(Y=yX=x,Z=z)P(Z=z)

(2)联合概率表示形式 P ( y ∣ d o ( x ) ) = ∑ z P ( X = x , Y = y , Z = z ) P ( X = x ∣ Z = z ) P(y|do(x))=\sum_z \frac{P(X=x,Y=y,Z=z)}{P(X=x|Z=z)} P(ydo(x))=zP(X=xZ=z)P(X=x,Y=y,Z=z) 其中 P ( X = x ∣ Z = z ) P(X=x|Z=z) P(X=xZ=z)被称为倾向分数

X X X的父节点集合会包含不可观察的变量,使得我们无法计算校正公式中的条件概率,后续内容可以看到,可以对模型中其他变量进行校正,代替 P A ( X ) PA(X) PA(X)中不可观察的变量。

平均因果效应(Average Causal Effect,ACE) = P ( Y = 1 ∣ d o ( X = 1 ) ) = P ( Y = 1 ∣ d o ( X = 0 ) ) > 0 =P(Y=1|do(X=1))=P(Y=1|do(X=0))>0 =P(Y=1∣do(X=1))=P(Y=1∣do(X=0))>0 则表明进行 X = 1 X=1 X=1操作具有明显的积极作用。

后门准则

在这里插入图片描述
Z Z Z可观测且不为 X X X的后代,并且 Z Z Z阻断了 X X X Y Y Y之间每条指向 X X X的路径。

校正公式为 P ( Y = y ∣ d o ( X = x ) ) = ∑ z P ( Y = y ∣ X = x , Z = z ) P ( Z = z ) P(Y=y|do(X=x))=\sum_z P(Y=y|X=x,Z=z)P(Z=z) P(Y=ydo(X=x))=zP(Y=yX=x,Z=z)P(Z=z) P A ( X ) PA(X) PA(X)天然满足后门准则

特殊情况 模型中没有从 X X X Y Y Y的后门路径,则空集满足准则,不需要校正。即 P ( y ∣ d o ( x ) ) = P ( y ∣ x ) P(y|do(x))=P(y|x) P(ydo(x))=P(yx)

前门准则

在这里插入图片描述
由于后门变量 U U U是不可观测的,于是通过可观测的中介变量 Z Z Z连续应用两次后门准则来评估 X X X Y Y Y的因果效应。

第一次后门准则:由于没有从 X X X Z Z Z的后门路径,所以 X X X Z Z Z之间的因果效应是可识别的。
P ( Z = z ∣ d o ( X = x ) ) = P ( Z = z ∣ X = x ) P(Z=z|do(X=x))=P(Z=z|X=x) P(Z=zdo(X=x))=P(Z=zX=x)
第二次后门准则:由于 Z Z Z Y Y Y的后门路径可以通过以 X X X为条件来阻断。所以 Z Z Z Y Y Y的因果效应是可识别的。
P ( Y = y ∣ d o ( Z = z ) ) = ∑ x P ( Y = y ∣ Z = z , X = x ) P ( X = x ) P(Y=y|do(Z=z))=\sum_x P(Y=y|Z=z,X=x)P(X=x) P(Y=ydo(Z=z))=xP(Y=yZ=z,X=x)P(X=x)
将两部分连接起来有
P ( Y = y ∣ d o ( X = x ) ) = ∑ z P ( Y = y ∣ d o ( Z = z ) ) P ( Z = z ∣ d o ( X = x ) ) P(Y=y|do(X=x))=\sum_zP(Y=y|do(Z=z))P(Z=z|do(X=x)) P(Y=ydo(X=x))=zP(Y=ydo(Z=z))P(Z=zdo(X=x))
校正公式为 P ( Y = y ∣ d o ( X = x ) ) = ∑ z ∑ x ′ P ( Y = y ∣ Z = z , X = x ′ ) P ( X = x ′ ) P ( Z = z ∣ X = x ) P(Y=y|do(X=x))=\sum_z\sum_{x'} P(Y=y|Z=z,X=x')P(X=x')P(Z=z|X=x) P(Y=ydo(X=x))=zxP(Y=yZ=z,X=x)P(X=x)P(Z=zX=x)

条件干预(Z-特定效应)

校正公式为 P ( Y = y ∣ d o ( X = g ( Z ) ) ) = ∑ z P ( Y = y ∣ d o ( X = x ) , Z = z ) P ( Z = z ) P(Y=y|do(X=g(Z)))=\sum_zP(Y=y|do(X=x),Z=z)P(Z=z) P(Y=ydo(X=g(Z)))=zP(Y=ydo(X=x),Z=z)P(Z=z)

逆概率加权

假设已知函数 P ( X = x ∣ Z = z ) P(X=x|Z=z) P(X=xZ=z)且可以利用它来生成仿真样本。且 Z Z Z满足后门准则。

校正公式为 P ( y ∣ d o ( x ) ) = ∑ z P ( X = x , Y = y , Z = z ) P ( X = x ∣ Z = z ) P(y|do(x))=\sum_z \frac{P(X=x,Y=y,Z=z)}{P(X=x|Z=z)} P(ydo(x))=zP(X=xZ=z)P(X=x,Y=y,Z=z)

其中总体数据中的每个 ( X = x , Y = y , Z = z ) (X=x,Y=y,Z=z) (X=x,Y=y,Z=z)的概率被因子 1 P ( X = x ∣ Z = z ) \frac{1}{P(X=x|Z=z)} P(X=xZ=z)1放大了,因此被称为逆概率加权。

将重点放在当样本数量无限增加时会收敛到真实因果效应的估计。

中介

Z Z Z X X X Y Y Y的中介变量时,将 X X X的值从 x x x变为 x ′ x' x后,对 Y Y Y的直接受控效应(Controlled Direct Effect, CDE)

C D E = P ( Y = y ∣ d o ( X = x ) , d o ( Z = z ) ) − P ( Y = y ∣ d o ( X = x ′ ) , d o ( Z = z ) ) CDE=P(Y=y|do(X=x),do(Z=z))-P(Y=y|do(X=x'),do(Z=z)) CDE=P(Y=ydo(X=x),do(Z=z))P(Y=ydo(X=x),do(Z=z))


第四章 反事实的分析

这一部分比较省略后续待补充

反事实语句”在 U = u U=u U=u的情况下,若 X X X当初取值 x x x,则 Y Y Y取值 y y y“,记做 Y x ( u ) = y Y_x(u)=y Yx(u)=y

三步计算法

(1)用证据 E = e E=e E=e确定 U U U的值。

(2)修改模型 M M M,移除变量 X X X出现在左边的方程,用 X = x X=x X=x替换它们,得到修正的模型 M x M_x Mx

(3)使用修正后的模型 M x M_x Mx U U U值计算 Y Y Y的值,即反事实的结果。

  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
【干货书】《因果推理导论-机器学习角度》,132页pdf 有几个主要的主题贯穿全书。这些主题主要是对两个不同类别的比较。当你阅读的时候,很重要的一点是你要明白书的不同部分适合什么类别,不适合什么类别。 统计因果。即使有无限多的数据,我们有时也无法计算一些因果量。相比之下,很多统计是关于在有限样本中解决不确定性的。当给定无限数据时,没有不确定性。然而,关联,一个统计概念,不是因果关系。在因果推理方面还有更多的工作要做,即使在开始使用无限数据之后也是如此。这是激发因果推理的主要区别。我们在这一章已经做了这样的区分,并将在整本书中继续做这样的区分。 识别与评估。因果效应的识别是因果推论所独有的。这是一个有待解决的问题,即使我们有无限的数据。然而,因果推理也与传统统计机器学习共享估计。我们将主要从识别因果效应(在第2章中,4和6)之前估计因果效应(第7章)。例外是2.5节和节4.6.2,我们进行完整的例子估计给你的整个过程是什么样子。 介入与观察。如果我们能进行干预/实验,因果效应的识别就相对容易了。这很简单,因为我们可以采取我们想要衡量因果效应的行动,并简单地衡量我们采取行动后的效果。观测数据变得更加复杂,因为数据中几乎总是引入混杂。 假设。将会有一个很大的焦点是我们用什么假设来得到我们得到的结果。每个假设都有自己的框来帮助人们注意到它。清晰的假设应该使我们很容易看到对给定的因果分析或因果模型的批评。他们希望,清晰地提出假设将导致对因果关系的更清晰的讨论。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值