概率图的基本含义
概率图从字面上可分为"概率"和"图","概率"指的是概率模型,在之前的内容中,介绍了一些很基础的概率模型,并把概率引入机器学习中,这样我们就能够实现对已有数据进行聚类(例如混合高斯模型),或者对未知数据进行预判(例如朴素贝叶斯,逻辑回归)。
对于"图",即为数据结构中的图,包含有向图和无向图。
对于上述的图结构赋予概率含义,即将概率模型嵌入图结构,形成概率图模型,一方面使得表达清晰直观,另一方面可以用图结构把概率的特征体现得更加明显,以便构造更合理的模型。
常用的概率运算法则
描述样本的数据通常是多维的,因此在现实中一般都是用高维,多元的随机变量来表示数据。例如一个 p p p维的随机变量 ( x 1 , x 2 , x 3 , . . . , x p ) (x_{1},x_{2},x_{3},...,x_{p}) (x1,x2,x3,...,xp),我们会关注以下几种概率分布:
- 联合概率: p ( x 1 , x 2 , . . . , x p ) p(x_{1},x_{2},...,x_{p}) p(x1,x2,...,xp)
- 边缘概率: p ( x i ) p(x_{i}) p(xi)
- 条件概率: p ( x i ∣ x j ) p(x_{i}|x_{j}) p(xi∣xj)
围绕这三种形式的概率分布,常用到以下运算法则:
- 和准则: p ( x 1 ) = ∫ p ( x 1 , x 2 ) d x 2 p(x_{1})=\int p(x_{1},x_{2})dx_{2} p(x1)=∫p(x1,x2)dx2
- 积准则: p ( x 1 , x 2 ) = p ( x 1 ) p ( x 2 ∣ x 1 ) = p ( x 2 ) p ( x 1 ∣ x 2 ) p(x_{1},x_{2})=p(x_{1})p(x_{2}|x_{1})=p(x_{2})p(x_{1}|x_{2}) p(x1,x2)=p(x1)p(x2∣x1)=p(x2)p(x1∣x2)
- 链式法则: p ( x 1 , x 2 , . . . , x p ) = p ( x 1 ) p ( x 2 ∣ x 1 ) p ( x 3 ∣ x 2 , x 1 ) ⋅ ⋅ ⋅ p ( x p ∣ x p − 1 , x p − 2 , . . . , x 1 ) p(x_{1},x_{2},...,x_{p})=p(x_{1})p(x_{2}|x_{1})p(x_{3}|x_{2},x_{1})\cdot\cdot\cdot p(x_{p}|x_{p-1},x_{p-2},...,x_{1}) p(x1,x2,...,xp)=p(x1)p(x2∣x1)p(x3∣x2,x1)⋅⋅⋅p(xp∣xp−1,xp−2,...,x1)
- 贝叶斯法则: p ( x 2 ∣ x 1 ) = p ( x 1 , x 2 ) p ( x 1 ) = p ( x 1 , x 2 ) ∫ p ( x 1 , x 2 ) d x 2 = p ( x 2 ) p ( x 1 ∣ x 2 ) ∫ p ( x 2 ) p ( x 1 ∣ x 2 ) d x 2 p(x_{2}|x_{1})=\frac{p(x_{1},x_{2})}{p(x_{1})}=\frac{p(x_{1},x_{2})}{\int p(x_{1},x_{2})dx_{2}}=\frac{p(x_{2})p(x_{1}|x_{2})}{\int p(x_{2})p(x_{1}|x_{2})dx_{2}} p(x2∣x1)=p(x1)p(x1,x2)=∫p(x1,x2)dx2p(x1,x2)=∫p(x2)p(x1∣x2)dx2p(x2)p(x1∣x2)
高维随机变量的问题与解决思路
高维随机变量的联合概率难以计算,即时使用链式法则也依旧复杂。面对复杂的表达,人们开始简化模型,通过施加前提假设化简复杂性。
最开始的化简是朴素贝叶斯,在描述以类别
y
y
y为条件的条件概率
p
(
x
1
,
x
2
,
.
.
.
,
x
p
∣
y
)
p(x_{1},x_{2},...,x_{p}|y)
p(x1,x2,...,xp∣y)中,它假设给定类别
y
y
y的情况下,高维随机变量中的各个维度彼此独立,在这个前提下,概率变得容易分解:
p
(
x
,
y
)
=
p
(
x
1
,
x
2
,
.
.
.
,
x
p
∣
y
)
=
∏
i
=
1
p
p
(
x
i
∣
y
)
p(x,y)=p(x_{1},x_{2},...,x_{p}|y)=\prod_{i=1}^{p}p(x_{i}|y)
p(x,y)=p(x1,x2,...,xp∣y)=i=1∏pp(xi∣y)
朴素贝叶斯太过于简单,假设条件过强,实际中的随机变量在各个维度间总是存在关联,现在稍微放松该假设,回顾齐次马尔科夫模型(一阶马尔科夫):
在一阶马尔科夫模型中,
x
3
x_{3}
x3的状态仅与
x
2
x_{2}
x2相关,与
x
1
x_{1}
x1无关,
x
4
x_{4}
x4的状态仅与
x
3
x_{3}
x3有关,而与之前的
x
1
,
x
2
x_{1},x_{2}
x1,x2无关,通过这种方式也可以实现联合概率的化简:
p
(
x
1
,
x
2
,
.
.
.
,
x
p
)
=
p
(
x
1
)
p
(
x
2
∣
x
1
)
p
(
x
3
∣
x
2
,
x
1
)
⋅
⋅
⋅
p
(
x
p
∣
x
p
−
1
,
x
p
−
2
,
.
.
.
,
x
1
)
p(x_{1},x_{2},...,x_{p})=p(x_{1})p(x_{2}|x_{1})p(x_{3}|x_{2},x_{1})\cdot\cdot\cdot p(x_{p}|x_{p-1},x_{p-2},...,x_{1})
p(x1,x2,...,xp)=p(x1)p(x2∣x1)p(x3∣x2,x1)⋅⋅⋅p(xp∣xp−1,xp−2,...,x1)
=
p
(
x
1
)
p
(
x
2
∣
x
1
)
p
(
x
3
∣
x
2
)
⋅
⋅
⋅
p
(
x
p
∣
x
p
−
1
)
=p(x_{1})p(x_{2}|x_{1})p(x_{3}|x_{2})\cdot\cdot\cdot p(x_{p}|x_{p-1})
=p(x1)p(x2∣x1)p(x3∣x2)⋅⋅⋅p(xp∣xp−1)
联合概率的表达形式得到了简化,但此时又觉得一阶马尔科夫的假设实际也有些过强,因为它使各维度的依赖关系考虑得太单一,实际的维度关系情况可能如下:
我们随意在几个维度间增加了依赖关系,而马尔科夫无法描述这种情况。因此,我们需要进一步去探索更通用的方法解决高维随机变量的复杂性,从而引出概率图模型。
概率图的主要研究目标
现在从整体上概览概率图模型,以及主要内容。概率图模型有三大基本问题:表示,推断,学习。
表示:
数据结构中,图分为有向图和无向图,那么概率图同样分为有向图和无向图。其中,有向图称为贝叶斯网络,无向图称为马尔科夫网络(或马尔科夫随机场)
推断:
推断问题的本质是根据已知数据,去求另外一些数据的概率分布,有精确推断,以及在工程中广泛使用的近似推断。
学习:
学习问题即为学习的两个内容:参数学习,结构学习。