贝叶斯网络
🌈本篇blog 基于b站视频记录 b站视频
定义
贝叶斯网络是一个有向无圈图(Directed Acyclic Grraph, DAG),由代表变量的节点及连接
这些节点有向边构成。节点代表随机变量,节点间的有向边代表了节点间的互相关系(由父节点指向其子节点),用条件概率表达变量间依赖关系,没有父节点的用先验概率进行信息表达。
无圈图 有向边不会形成一个圈
🌴那么,在这样的贝叶斯网络下怎么定义联合概率分布的?
令 G G G 为定义在 { X 1 , X 2 , … , X N } \{X_1,X_2,\ldots,X_N\} {X1,X2,…,XN} 上的一个贝叶斯网络,其联合概率分布可以表示为各个节点的条件概率分布的乘积:
p
(
X
)
=
∏
i
p
i
(
X
i
∣
P
a
r
G
(
X
i
)
)
p(X)=\prod_{i}p_{i}(X_{i}\big|Par_{G}(X_{i}))
p(X)=i∏pi(Xi
ParG(Xi))
P
a
r
G
(
X
i
)
Par_G(X_i)
ParG(Xi) 在G这个图上,为节点
X
i
X_i
Xi的父节点的集合。
p
i
(
X
i
∣
P
a
r
G
(
X
i
)
)
p_i(X_i|Par_G(X_i))
pi(Xi∣ParG(Xi))为节点条件概率表。
例子
对一个学生是否能够拿到推荐信的 建模
联合概率分布
p
(
D
,
I
,
G
,
S
,
L
)
=
P
(
D
)
P
(
I
)
P
(
G
∣
I
,
D
)
P
(
S
∣
I
)
P
(
L
∣
G
)
\begin{aligned} &p(D,I,G,S,L) \\ &=P(D)P(I)P(G{\big|}I,D)P(S{\big|}I)P(L{\big|}G) \end{aligned}
p(D,I,G,S,L)=P(D)P(I)P(G
I,D)P(S
I)P(L
G)
比如
p
(
d
0
,
i
1
,
g
1
,
s
1
,
l
1
)
=
P
(
d
0
)
P
(
i
1
)
P
(
g
1
∣
i
1
,
d
0
)
P
(
s
1
∣
i
1
)
P
(
l
1
∣
g
1
)
=
0.6
×
0.3
×
0.9
×
0.8
×
0.9
=0.11664
\begin{aligned} &p(d^0,i^1,g^1,s^1,l^1) \\ &=P(d^{0})P(i^{1})P(g^{1}\left|i^{1},d^{0}\right)P(s^{1}\left|i^{1}\right)P(l^{1}\mid g^{1}) \\ &=0.6\times0.3\times0.9\times0.8\times0.9 \\ &\text{=0.11664} \end{aligned}
p(d0,i1,g1,s1,l1)=P(d0)P(i1)P(g1
i1,d0)P(s1
i1)P(l1∣g1)=0.6×0.3×0.9×0.8×0.9=0.11664
⭐️优点 参数少 并且直观形象
参数个数
如果用枚举法
需要 2*2 *3 * 2 * 2 -1=47 个参数
为什么-1
这里减1是因为,那一个参数可以由1-其他参数概率和得到。但其实本质上还是要48个参数
你知道了其他n-1个概率然后就知道最后一个了
如果用结构化分解:
需要 1+1+8+3+2=15个
8个参数是因为只需要两个值,总和为1,剩下那个值就知道了
🌱更一般地,假设n个二元随机变量的联合概率分布,表示该分布需要2n -1个参数。如果用贝叶斯网络建模,假设每个节点最多有k个父节点,所需要的参数最多为n*2k,一般每个变量局部依赖于少数变量。
关于条件独立
联合概率为什么可以表示为局部条件概率表的乘积?——条件独立性
p
(
D
,
I
,
G
,
S
,
L
)
=
P
(
D
)
P
(
I
)
P
(
G
∣
I
,
D
)
P
(
S
∣
I
)
P
(
L
∣
G
)
\begin{aligned} &p(D,I,G,S,L) \\ &=P(D)P(I)P(G{\big|}I,D)P(S{\big|}I)P(L{\big|}G) \end{aligned}
p(D,I,G,S,L)=P(D)P(I)P(G
I,D)P(S
I)P(L
G)
也就是上述例子为什么成立
补充:
P(A∩B) = P(A)*P(B|A)=P(B)*P(A|B)。
事件AB同时发生的概率: 等于当事件A发生了之后,再乘以在事件A发生的基础上事件B发生的概率。 或者事件B发生了之后,再乘以在事件B发生基础上事件A发生的概率。 符合朴素的认知习惯。
右边的式子是得到下面的等式的条件(前提),马尔可夫性质
给定C的条件下,A和B是条件独立的
是赖床的概率为1,已经赖床了迟到和熬夜就没有关系了,是不是熬夜已经不重要了
证明当前节点概率只与其前面的父节点有关系
变量独立性
如果X,Y相互独立,则满足
P
(
X
,
Y
)
=
P
(
X
)
P
(
Y
)
P
(
X
∣
Y
)
=
P
(
X
)
P
(
Y
∣
X
)
=
P
(
Y
)
\begin{aligned} &P(X,Y)=P(X)P(Y) \\ &P(X|Y)=P(X) \\ &P(Y|X)=P(Y) \end{aligned}
P(X,Y)=P(X)P(Y)P(X∣Y)=P(X)P(Y∣X)=P(Y)
条件独立
如果随机变量X,Y在给定Z的条件下独立,则满足
P
(
X
,
Y
∣
Z
)
=
P
(
X
∣
Z
)
P
(
Y
∣
Z
)
P
(
X
∣
Y
,
Z
)
=
P
(
X
∣
Z
)
P
(
Y
∣
X
,
Z
)
=
P
(
Y
∣
Z
)
\begin{aligned} &P(X,Y|Z) =P(X\mid Z)P(Y\mid Z) \\ &P(X\mid Y,Z) =P(X\mid Z) \\ &P(Y\mid X,Z) =P(Y|Z) \end{aligned}
P(X,Y∣Z)=P(X∣Z)P(Y∣Z)P(X∣Y,Z)=P(X∣Z)P(Y∣X,Z)=P(Y∣Z)
概率影响的流动性
概率影响的流动性:在一定的观测条件下,变量间的取值概率是否会相互影响。
观测变量: 变量取值可观测,或变量取值已经确定
隐变量: 变量取值未知,通常根据观测变量取值,对隐变量的取值概率进行推理
C如果已经确定了,A就不会影响B
如果C未定,A和B就可能会相互影响
“√”——具备流动性,X,Y能够相互影响
“∈” ——w是观测变量(也就是变量取值可观测,或变量取值已经确定)
有效迹
对于贝叶斯网络中的一条迹(也就是路径) X 1 ⇌ . . . X n X_{1}\rightleftharpoons...X_{n} X1⇌...Xn,和观测变量的子集Z, 当X和Xn的取值能够相互影响时,称路径是有效的(active)。 ——有效迹
条件独立和有迹
当 X 1 ⇌ . . . X n X_{1}\rightleftharpoons...X_{n} X1⇌...Xn不是有效迹时,(X和Xn的取值无法相互影响),X和Xn相互独立。
d-分离
若图G在给定Z条件下,节点X和Y之间不存在任何有效迹,则称X和Y在给定Z时是d-分离的,记为
d - sepG(X,Y |Z)
⭐️定理:若概率图G满足d-sepG(X,Y|Z),则X与Y条件独立。
贝叶斯网络中的独立性
引理:父节点已知时,该节点与其所有非后代的节点,满足d分离。
⭐️定理:父节点已知时,该节点与其所有非后代的节点(non-descendants)条件独立
贝叶斯网络推理的直观理解
因果推断
顺着箭头方向推断
证据推断
逆着箭头推断
交叉因果推断
双向因果推断
小结
贝叶斯网络的定义、条件概率表
概率影响的流动性、d-分离、条件独立性
贝叶斯网络的结构化分解的原理、意义
🌈ok,完结~(●’◡’●) 看到这里 点个赞叭 (●’◡’●)