本章主要分析贝叶斯网络、条件独立、马尔科夫随机场和图模型的推断
0 前言
概率图模型:用概率分布的图形表示变量之间的依赖关系
⼀个图由结点(nodes)和它们之间的链接(links)组成。在概率图模型中,每个结点表⽰⼀个随机变量(或⼀组随机变量),链接表⽰这些变量之间的概率关系。这样,图描述了联合概率分布在所有随机变量上能够分解为⼀组因⼦的乘积的⽅式,每个因⼦只依赖于随机变量的⼀个⼦集。
1 贝叶斯网络
贝叶斯网络是一个有向图模型,一个简单的示例如下:
就上图而言,链接的起点就是条件概率的条件中的随机变量对应的结果,因此上图对应概率形式可以表示如下:
显然,真正传递出图表示的概率分布的有趣信息的是图中链接的缺失。
下面给出更一般的形式,对于一个有K个结点的图,联合概率为:
其中, pak 表示 xk 的父结点的集合, x={ x1,...,xk} 。这个关键的方程表示有向图模型的联合概率分布的分解属性。
这里,贝叶斯网络对应的有向图是有向无环图(DAG)。这等价于存在一个对所有点的排序,使得不存在从某个结点到序号较小的结点的链接。
多项式回归的例子
多项式回归的概率形式为:
一般而言,会用给对应结点加上阴影的方式表示观测变量。因此,以t为观测变量,上述概率形式用图模型表示如下:
生成式模型的例子
这里分析的是图模型与采样方法的关系。对应于⼀个有向⽆环图。我们假设变量已经进⾏了排序,从⽽不存在从某个结点到序号较低的结点的链接。换句话说,每个结点的序号都⼤于它的⽗结点。我们的⽬标是从这样的联合概率分布中取样 x1ˆ,...,xkˆ 。这里,假设我们已知第一个样本的初始概率分布。那么,图模型对应的就是祖先采样。
祖先采样:我们⾸先选出序号最⼩的结点,按照概率分布 p(x1) 取样,记作 x1 。然后,我们顺序计算每个结点,使得对于结点n,我们根据条件概率 p(xn|pan) 进⾏取样,其中⽗结点的变量被设置为它们的取样值。注意,在每个阶段,这些⽗结点的变量总是可以得到的,因为它们对应于已经采样过的序号较⼩的结点。⼀旦我们对最后的变量 xK 取样结束,我们就达到了根据联合概率分布取样的⽬标。为了从对应于变量的⼦集的边缘概率分布中取样,我们简单地取要求结点的取样值,忽略剩余结点的取样值。
离散变量的例子
对于一个有K个可能状态的一元离散变量 x ,概率
其中,参数 u=(u1,...,uK)T ,由于限制条件 ∑kuk=1 的存在,实际上定义这个概率分布,只需要K-1个参数即可。
这里讨论参数个数是因为,对离散变量采用图模型表示时,隐含的参数数量随着结点个数的增长迅速增长。
比如,考虑一般的情形,如果我们有M个离散变量 x1,...,xM ,我们可以用有向图来对联合概率分布建模,每个变量一个结点。假如考虑链式的链接形式(如下图),那么整个图的概率分布所需要的参数数量为 K−1+(M−1)K(K−1) 。
有效减少模型中独立参数的方法有两个:
(1)参数共享。比如为参数引入先验,或者对每个结点包含的参数增加约束
(2)对条件概率分布使用参数化的模型,而不是使用条件概率的完整表示。
2 条件独立
条件独立
多变量概率的分布的一个重要概念是条件独立,这在图模型中很容易看出来,实现联合概率分布条件独立的方法被称为d-划分(d-separation)
所谓的条件独立,是指:
考虑三个变量 a,b,c ,如果其联合概率存在下面的形式:
那么,我们说在给定c的条件下,a条件独立于b
三种基本情况
(1)tail-to-tail
假设以变量c为条件,则有:
显然,此时a,b相互独立。
假设现在没有变量是观测变量,则有:
显然,此时a,b不一定相互独立。
(2)tail-to-head
假设以c为条件,则有: