概率图:
这里的图是一种工具,用图的方式来表示概率,更加直观
按照表现方式分类:
概
率
图
=
{
有
向
图
:
代
表
:
贝
叶
斯
网
络
无
向
图
:
代
表
:
马
尔
科
夫
网
络
概率图= \begin{cases} 有向图:\quad 代表:贝叶斯网络\\ 无向图: \quad 代表:马尔科夫网络 \end{cases}
概率图={有向图:代表:贝叶斯网络无向图:代表:马尔科夫网络
按照推断问题可分为:
i
n
f
e
r
e
n
c
e
=
{
精
确
推
断
:
代
表
:
置
信
传
播
(
B
e
l
i
e
f
p
r
o
p
a
g
a
t
i
o
n
)
近
似
推
断
:
代
表
:
变
分
推
断
(
确
定
性
近
似
)
inference= \begin{cases} 精确推断: \quad 代表:置信传播(Belief \quad propagation)\\ 近似推断: \quad 代表:变分推断(确定性近似) \end{cases}
inference={精确推断:代表:置信传播(Beliefpropagation)近似推断:代表:变分推断(确定性近似)
贝叶斯网络
对于一个高维随机变量X,求X的概率可分为:
高
维
随
机
变
量
P
(
x
1
,
x
2
,
x
3
,
.
.
.
,
x
n
)
=
{
边
缘
概
率
:
:
p
(
x
i
)
条
件
概
率
:
:
p
(
x
i
∣
x
j
)
高维随机变量P(x_1,x_2,x_3,...,x_n)= \begin{cases} 边缘概率:\quad :p(x_i)\\ 条件概率: \quad :p(x_i|x_j) \end{cases}
高维随机变量P(x1,x2,x3,...,xn)={边缘概率::p(xi)条件概率::p(xi∣xj)
用到的法则有:
概
率
常
用
法
则
:
=
{
加
法
法
则
:
:
p
(
x
1
)
=
∫
x
2
(
x
1
,
x
2
)
d
x
2
乘
法
法
则
:
:
p
(
x
1
,
x
2
)
=
p
(
x
1
∣
x
2
)
p
(
x
2
)
=
p
(
x
2
∣
x
1
)
p
(
x
1
)
链
式
法
则
:
:
p
(
x
1
,
x
2
,
x
3
,
.
.
.
,
x
p
)
=
∏
i
=
1
p
p
(
x
i
∣
x
1
,
x
2
,
.
.
.
.
x
i
−
1
)
贝
叶
斯
法
则
:
:
p
(
x
2
∣
x
1
)
=
p
(
x
1
,
x
2
)
p
(
x
1
)
=
p
(
x
1
,
x
2
)
∫
p
(
x
1
,
x
2
)
d
x
2
概率常用法则:= \begin{cases} 加法法则:\quad :p(x_1)=\int_{x_2}(x1,x2)dx_2\\ 乘法法则: \quad :p(x_1,x_2)=p(x_1|x_2)p(x_2)=p(x_2|x_1)p(x_1) \\ 链式法则: \quad :p(x_1,x_2,x_3,...,x_p)=\displaystyle \prod_{i=1}^p p(x_i|x_1,x_2,....x_{i-1})\\ 贝叶斯法则: \quad :p(x_2|x_1)=\displaystyle \frac {p(x_1,x_2)}{p(x_1)} =\displaystyle \frac {p(x_1,x_2)}{\int p(x_1,x_2)dx_2} \\ \end{cases}
概率常用法则:=⎩⎪⎪⎪⎪⎪⎪⎪⎪⎨⎪⎪⎪⎪⎪⎪⎪⎪⎧加法法则::p(x1)=∫x2(x1,x2)dx2乘法法则::p(x1,x2)=p(x1∣x2)p(x2)=p(x2∣x1)p(x1)链式法则::p(x1,x2,x3,...,xp)=i=1∏pp(xi∣x1,x2,....xi−1)贝叶斯法则::p(x2∣x1)=p(x1)p(x1,x2)=∫p(x1,x2)dx2p(x1,x2)
存在的问题: 维度高的情况下,计算复杂,
p
(
x
1
,
x
2
,
.
.
.
,
x
p
)
计
算
量
大
p(x_1,x_2,...,x_p)计算量大
p(x1,x2,...,xp)计算量大
想到的办法:简化
- 假定各个变量间彼此独立,此时有:
p ( x 1 , x 2 , x 3 , . . . , x p ) = ∏ i = 1 p p ( x i ) p(x_1,x_2,x_3,...,x_p)=\displaystyle \prod_{i=1}^p p(x_i) p(x1,x2,x3,...,xp)=i=1∏pp(xi) :就是朴素贝叶斯模型 - 假定每个变量只与相邻变量有关,此时有:
p ( x 1 , x 2 , x 3 , . . . , x p ) = ∏ i = 1 p p ( x i ∣ x i − 1 ) p(x_1,x_2,x_3,...,x_p)=\displaystyle \prod_{i=1}^p p(x_{i}|x_{i-1}) p(x1,x2,x3,...,xp)=i=1∏pp(xi∣xi−1) : 就是马尔科夫模型 - 假定每个集合只与相邻集合有关,此时有:
p ( X A ⊥ X B ∣ X C ) X A , X B , X C ∈ 集 合 且 不 相 交 p(X_A \bot X_B|X_C) \quad X_A,X_B,X_C \in 集合且不相交 p(XA⊥XB∣XC)XA,XB,XC∈集合且不相交,就是条件独立性
有了条件独立性,联合概率的贝叶斯公式可以写为:
p
(
x
1
,
x
2
,
x
3
,
.
.
.
,
x
p
)
=
∏
i
=
1
p
p
(
x
i
∣
x
p
a
r
e
n
t
)
,
x
p
a
r
e
n
t
∈
x
i
的
父
亲
集
合
p(x_1,x_2,x_3,...,x_p)=\displaystyle \prod_{i=1}^p p(x_{i}|x_{parent}) , \quad x_{parent} \in x_i的父亲集合
p(x1,x2,x3,...,xp)=i=1∏pp(xi∣xparent),xparent∈xi的父亲集合
几种常见的条件独立性概率图的表现形式:
- head-to-head形式
应用链式法则有: p ( a b c ) = p ( a ) p ( b ∣ a ) p ( c ∣ a , b ) p(abc)=p(a)p(b|a)p(c|a,b) p(abc)=p(a)p(b∣a)p(c∣a,b)
因式分解方式有: p ( a b c ) = p ( a ) p ( b ) p ( c ∣ a b ) p(abc)=p(a)p(b)p(c|ab) p(abc)=p(a)p(b)p(c∣ab)
所以有 p ( b ∣ a ) = p ( b ) p(b|a)=p(b) p(b∣a)=p(b),也就是默认情况下 a 独 立 于 b a独立于b a独立于b -
t
a
i
l
−
t
o
−
t
a
i
l
tail-to-tail
tail−to−tail形式:
应用链式法则有: p ( c b a ) = p ( c ) p ( b ∣ c ) p ( a ∣ b , c ) p(cba)=p(c)p(b|c)p(a|b,c) p(cba)=p(c)p(b∣c)p(a∣b,c)
因式分解方式有: p ( c b a ) = p ( c ) p ( b ∣ c ) p ( a ∣ c ) p(cba)=p(c)p(b|c)p(a|c) p(cba)=p(c)p(b∣c)p(a∣c)
所以有 p ( a ∣ b , c ) = p ( a ∣ c ) p(a|b,c)=p(a|c) p(a∣b,c)=p(a∣c),也就是给定C的情况下 a ⊥ b a \bot b a⊥b -
h
e
a
d
−
t
o
−
t
a
i
l
head-to-tail
head−to−tail形式:
应用链式法则有: p ( a c b ) = p ( a ) p ( c ∣ a ) p ( b ∣ a , c ) p(acb)=p(a)p(c|a)p(b|a,c) p(acb)=p(a)p(c∣a)p(b∣a,c)
因式分解方式有: p ( a c b ) = p ( a ) p ( c ∣ a ) p ( b ∣ c ) p(acb)=p(a)p(c|a)p(b|c) p(acb)=p(a)p(c∣a)p(b∣c)
所以有 p ( b ∣ a , c ) = p ( b ∣ c ) p(b|a,c)=p(b|c) p(b∣a,c)=p(b∣c),也就是给定C的情况下 a ⊥ b a \bot b a⊥b