第十六课.概率图模型

概率图的基本含义

概率图从字面上可分为"概率"和"图","概率"指的是概率模型,在之前的内容中,介绍了一些很基础的概率模型,并把概率引入机器学习中,这样我们就能够实现对已有数据进行聚类(例如混合高斯模型),或者对未知数据进行预判(例如朴素贝叶斯,逻辑回归)。

对于"图",即为数据结构中的图,包含有向图和无向图。

对于上述的图结构赋予概率含义,即将概率模型嵌入图结构,形成概率图模型,一方面使得表达清晰直观,另一方面可以用图结构把概率的特征体现得更加明显,以便构造更合理的模型。

常用的概率运算法则

描述样本的数据通常是多维的,因此在现实中一般都是用高维,多元的随机变量来表示数据。例如一个 p p p维的随机变量 ( x 1 , x 2 , x 3 , . . . , x p ) (x_{1},x_{2},x_{3},...,x_{p}) (x1,x2,x3,...,xp),我们会关注以下几种概率分布:

  • 联合概率: p ( x 1 , x 2 , . . . , x p ) p(x_{1},x_{2},...,x_{p}) p(x1,x2,...,xp)
  • 边缘概率: p ( x i ) p(x_{i}) p(xi)
  • 条件概率: p ( x i ∣ x j ) p(x_{i}|x_{j}) p(xixj)

围绕这三种形式的概率分布,常用到以下运算法则:

  • 和准则: p ( x 1 ) = ∫ p ( x 1 , x 2 ) d x 2 p(x_{1})=\int p(x_{1},x_{2})dx_{2} p(x1)=p(x1,x2)dx2
  • 积准则: p ( x 1 , x 2 ) = p ( x 1 ) p ( x 2 ∣ x 1 ) = p ( x 2 ) p ( x 1 ∣ x 2 ) p(x_{1},x_{2})=p(x_{1})p(x_{2}|x_{1})=p(x_{2})p(x_{1}|x_{2}) p(x1,x2)=p(x1)p(x2x1)=p(x2)p(x1x2)
  • 链式法则: p ( x 1 , x 2 , . . . , x p ) = p ( x 1 ) p ( x 2 ∣ x 1 ) p ( x 3 ∣ x 2 , x 1 ) ⋅ ⋅ ⋅ p ( x p ∣ x p − 1 , x p − 2 , . . . , x 1 ) p(x_{1},x_{2},...,x_{p})=p(x_{1})p(x_{2}|x_{1})p(x_{3}|x_{2},x_{1})\cdot\cdot\cdot p(x_{p}|x_{p-1},x_{p-2},...,x_{1}) p(x1,x2,...,xp)=p(x1)p(x2x1)p(x3x2,x1)p(xpxp1,xp2,...,x1)
  • 贝叶斯法则: p ( x 2 ∣ x 1 ) = p ( x 1 , x 2 ) p ( x 1 ) = p ( x 1 , x 2 ) ∫ p ( x 1 , x 2 ) d x 2 = p ( x 2 ) p ( x 1 ∣ x 2 ) ∫ p ( x 2 ) p ( x 1 ∣ x 2 ) d x 2 p(x_{2}|x_{1})=\frac{p(x_{1},x_{2})}{p(x_{1})}=\frac{p(x_{1},x_{2})}{\int p(x_{1},x_{2})dx_{2}}=\frac{p(x_{2})p(x_{1}|x_{2})}{\int p(x_{2})p(x_{1}|x_{2})dx_{2}} p(x2x1)=p(x1)p(x1,x2)=p(x1,x2)dx2p(x1,x2)=p(x2)p(x1x2)dx2p(x2)p(x1x2)

高维随机变量的问题与解决思路

高维随机变量的联合概率难以计算,即时使用链式法则也依旧复杂。面对复杂的表达,人们开始简化模型,通过施加前提假设化简复杂性。

最开始的化简是朴素贝叶斯,在描述以类别 y y y为条件的条件概率 p ( x 1 , x 2 , . . . , x p ∣ y ) p(x_{1},x_{2},...,x_{p}|y) p(x1,x2,...,xpy)中,它假设给定类别 y y y的情况下,高维随机变量中的各个维度彼此独立,在这个前提下,概率变得容易分解:
p ( x , y ) = p ( x 1 , x 2 , . . . , x p ∣ y ) = ∏ i = 1 p p ( x i ∣ y ) p(x,y)=p(x_{1},x_{2},...,x_{p}|y)=\prod_{i=1}^{p}p(x_{i}|y) p(x,y)=p(x1,x2,...,xpy)=i=1pp(xiy)
朴素贝叶斯太过于简单,假设条件过强,实际中的随机变量在各个维度间总是存在关联,现在稍微放松该假设,回顾齐次马尔科夫模型(一阶马尔科夫):
fig1
在一阶马尔科夫模型中, x 3 x_{3} x3的状态仅与 x 2 x_{2} x2相关,与 x 1 x_{1} x1无关, x 4 x_{4} x4的状态仅与 x 3 x_{3} x3有关,而与之前的 x 1 , x 2 x_{1},x_{2} x1,x2无关,通过这种方式也可以实现联合概率的化简:
p ( x 1 , x 2 , . . . , x p ) = p ( x 1 ) p ( x 2 ∣ x 1 ) p ( x 3 ∣ x 2 , x 1 ) ⋅ ⋅ ⋅ p ( x p ∣ x p − 1 , x p − 2 , . . . , x 1 ) p(x_{1},x_{2},...,x_{p})=p(x_{1})p(x_{2}|x_{1})p(x_{3}|x_{2},x_{1})\cdot\cdot\cdot p(x_{p}|x_{p-1},x_{p-2},...,x_{1}) p(x1,x2,...,xp)=p(x1)p(x2x1)p(x3x2,x1)p(xpxp1,xp2,...,x1) = p ( x 1 ) p ( x 2 ∣ x 1 ) p ( x 3 ∣ x 2 ) ⋅ ⋅ ⋅ p ( x p ∣ x p − 1 ) =p(x_{1})p(x_{2}|x_{1})p(x_{3}|x_{2})\cdot\cdot\cdot p(x_{p}|x_{p-1}) =p(x1)p(x2x1)p(x3x2)p(xpxp1)
联合概率的表达形式得到了简化,但此时又觉得一阶马尔科夫的假设实际也有些过强,因为它使各维度的依赖关系考虑得太单一,实际的维度关系情况可能如下:
fig2
我们随意在几个维度间增加了依赖关系,而马尔科夫无法描述这种情况。因此,我们需要进一步去探索更通用的方法解决高维随机变量的复杂性,从而引出概率图模型。

概率图的主要研究目标

现在从整体上概览概率图模型,以及主要内容。概率图模型有三大基本问题:表示,推断,学习。

表示:
数据结构中,图分为有向图和无向图,那么概率图同样分为有向图和无向图。其中,有向图称为贝叶斯网络,无向图称为马尔科夫网络(或马尔科夫随机场)

推断:
推断问题的本质是根据已知数据,去求另外一些数据的概率分布,有精确推断,以及在工程中广泛使用的近似推断。

学习:
学习问题即为学习的两个内容:参数学习,结构学习。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值