概率图模型基础之二——贝叶斯网络中的因果关系
1. 贝叶斯网络
1.1 网络结构
仍然是学生成绩的例子,假设有以下5个随机变量,Grade(G),Course Difficulty(D)、Student Intelligence(I)、Student SAT(S)、Reference Letter(L)。其结构如图example右侧所示。
1.2 贝叶斯网络的表达式
对于无向无环图(DGA)中的每一个节点
X
1
,
.
.
.
,
X
n
X_1,...,X_n
X1,...,Xn,每一个节点的概率可以写成
P
(
X
i
∣
P
a
r
G
(
X
i
)
)
P(X_i| Par_G(X_i))
P(Xi∣ParG(Xi))。
在图2中,D,S是两个不相邻的节点,在 G 和 L 未被观测的条件下,D,S在给定I的条件下保持独立。因此有
P
(
D
,
S
)
=
P
(
D
)
(
∑
I
P
(
I
)
P
(
S
∣
I
)
)
P(D,S)=P(D)(\sum_IP(I)P(S|I))
P(D,S)=P(D)(I∑P(I)P(S∣I))
对于上例中的结构,有
P
(
D
,
I
,
G
,
S
,
L
)
=
P
(
D
)
P
(
I
)
P
(
G
∣
D
,
I
)
P
(
S
∣
I
)
P
(
L
∣
G
)
P(D,I,G,S,L)=P(D)P(I)P(G|D,I)P(S|I)P(L|G)
P(D,I,G,S,L)=P(D)P(I)P(G∣D,I)P(S∣I)P(L∣G)
贝叶斯网络中,个节点的概率和为1.
1.3 朴素贝叶斯
假设所有的事例都属于若干两两互斥且是所有事例情况的类中的一个。比如,学生的智商
I
I
I,存在事例的两个类——高智商和低智商。
除此之外,模型还包括一定数量的、可以观测到其值的特征(features)
X
1
,
.
.
.
,
X
n
X_1,...,X_n
X1,...,Xn。朴素贝叶斯假设(naive Bayes assumption)是在给定事例的类的条件下,这些特征条件独立。
基于上述独立性假设,模型的因子分解可以表示为:
P
(
C
,
X
1
,
.
.
.
,
X
n
)
=
P
(
C
)
∏
i
=
1
n
P
(
X
i
∣
C
)
P(C,X_1,...,X_n)=P(C) \prod_{i=1}^{n}P(X_i|C)
P(C,X1,...,Xn)=P(C)i=1∏nP(Xi∣C)
2 符号定义
- ⊨ ⊨ ⊨:“满足”
- ⊥ ⊥ ⊥:“独立”
示例1:
上图的意思为:对于事件 α \alpha α, β \beta β,若有
P ( α , β ) = P ( α ) P ( β ) P(\alpha, \beta)=P(\alpha)P(\beta) P(α,β)=P(α)P(β)
P ( α ∣ β ) = P ( α ) P(\alpha| \beta)=P(\alpha) P(α∣β)=P(α)
P ( β ∣ α ) = P ( β ) P(\beta| \alpha)=P(\beta) P(β∣α)=P(β)
则 P P P满足 α \alpha α, β \beta β相互独立
示例2:
对于随机变量 X X X, Y Y Y,若有
P ( X , Y ) = P ( X ) P ( Y ) P(X, Y)=P(X)P(Y) P(X,Y)=P(X)P(Y)
P ( X ∣ Y ) = P ( X ) P(X| Y)=P(X) P(X∣Y)=P(X)
P ( Y ∣ X ) = P ( Y ) P(Y| X)=P(Y) P(Y∣X)=P(Y)
则 P P P满足 X X X, Y Y Y相互独立
3 因果关系
3.1 具体实例
- Intelligence和Difficulty为观测值,Grade和Letter为未知值。
- 如果Intelligence取较低值,则在此基础上,获得letter的概率下降
- 如果在此基础上继续减少课程的难度,则 P ( L 1 ∣ i 0 , d 0 ) P(L^1 | i^0,d^0) P(L1∣i0,d0)的概率会有提升提升。
表现为:概率从上到下影响。
- Intelligence和Difficulty为先验概率值(不是观测值),Grade为观测值。
- 如果Grade取较低值,则在此基础上,可以推测出,1、智商不够,2、考试很难。
表现为:概率从下到上影响。
- Intelligence和Difficulty为先验概率值(不是观测值),Grade为观测值。
- 如果加上了SAT,对difficulty和Intelligence也有很大影响。
表现为:概率的影响具有传递性。
3.2 贝叶斯网络中各节点如何相互影响?
- 直接连接
在此情况下:Grade改变影响Difficulty,同样的,Difficulty改变也会影响到Grade。
- 如果W不是观测变量,则X-W-Y可以完成X影响Y。
- Difficulty->Grade->Letter
当Grade不为观测变量时,Difficulty可以通过Grade对是否获取Letter进行影响。
- Letter->Grade->Difficulty
当Grade不为观测变量时,Letter的可以通过Grade判断课程的难度。
- Grade<-Intelligence->SAT
当Intelligence不为观测变量时,SAT的可以通过Intelligence判断成绩。
- 如果W是观测变量,则如下情况X不会影响Y。
-
Difficulty->Grade->Letter
-
Letter->Grade->Difficulty
-
Grade<-Intelligence->SAT
- 如果W以及W的子结点没有被观测的话,则X不会影响Y【v-结构】
- Difficulty->Grade<-Intelligence,其中(Grade和Letter都没有被观测到)
- 如果W或W的子结点有被观测的话,则X会影响Y【v-结构】
- Difficulty->Grade<-Intelligence,或Difficulty->Letter<-Intelligence
其中(Grade和Letter只要有一个被观测到)
4. 参考课程
Coursera——Probabilistic Graphical Models
PGM课程笔记