概率图模型( Probabilistic Graphical Model , PGM ),简称图模型( Graph-ical Model , GM ),是指一种用图结构来描述多元随机变量之间条件独立关系的概率模型,从而给研究高维空间中的概率模型带来了很大的便捷性.
图模型有三个基本问题:
- 表示问题:对于一个概率模型,如何通过图结构来描述变量之间的依赖关系.
- 学习问题:图模型的学习包括图结构的学习和参数的学习.在本章中, 我们只关注在给定图结构时的参数学习,即参数估计问题.
- 推断问题:在已知部分变量时,计算其他变量的条件概率分布.
11.1 模型表示
图由一组节点和节点之间的边组成.在概率图模型中,每个节点都表示一个随机变量(或一组随机变量),边表示这些随机变量之间的概率依赖关系.
常见的概率图模型可以分为两类:有向图模型和无向图模型.
11.1.1 有向图模型
有向图模型( Directed Graphical Model ),也称为贝叶斯网络( Bayesian Network )或信念网络( Belief Network , BN ),是一类用有向图来描述随机向量概率分布的模型.
常见的有向图模型:
- 为了减少模型参数,可以使用参数化模型来建模有向图模型中的条件概率分布.一种简单的参数化模型为 Sigmoid 信念网络。
- 朴素贝叶斯( Naive Bayes , NB )分类器是一类简单的概率分类器,在强(朴素)独立性假设的条件下运用贝叶斯公式来计算每个类别的条件概率.
- 隐马尔可夫模型( Hidden Markov Model , HMM )是用来表示一种含有隐变量的马尔可夫过程.
11.1.2 无向图模型
无向图模型,也称为马尔可夫随机场( Markov Random Field , MRF )或马尔可夫网络( Markov Network ),是一类用无向图来描述一组具有局部马尔可夫性质的随机向量 x 的联合概率分布的模型.
常见的无向图模型:
- 对数线性模型:也称为条件最大熵模型或 Softmax 回归模型.
- 条件随机场( Conditional Random Field , CRF )是一种直接建模条件概率的无向图模型.
有向图和无向图之间的转换:有向图和无向图可以相互转换,但将无向图转为有向图通常比较困难.在实际应用中,将有向图转为无向图更加重要,这样可以利用无向图上的精确推断算法,比如联合树算法( Junction Tree Algorithm ).
11.2 学习
图模型的学习可以分为两部分:一是网络结构学习,即寻找最优的网络结构;二是网络参数估计,即已知网络结构,估计每个条件概率分布的参数.
网络结构学习比较困难,一般是由领域专家来构建.本节只讨论在给定网络结构条件下的参数估计问题.图模型的参数估计问题又分为不包含隐变量时的参数估计问题和包含隐变量时的参数估计问题.
- 不含隐变量的参数估计:如果图模型中不包含隐变量,即所有变量都是可观测的,那么网络参数一般可以直接通过最大似然来进行估计.
- 含隐变量的参数估计:如果图模型中包含隐变量,即有部分变量是不可观测的,就需要用 EM 算
法进行参数估计.- EM 算法是含隐变量图模型的常用参数估计方法,通过迭代的方法来最大化边际似然. EM 算法具体分为两个步骤: E 步和 M 步.这两步不断重复,直到收敛到某个局部最优解.高斯混合模型是EM算法的具体例子.
11.3 推断
在图模型中,推断( Inference )是指在观测到部分变量时,计算其他变量的某个子集 的条件概率.
在图模型中,常用的推断算法可以分为精确推断算法和近似推断算法两类.
11.3.1 精确推断
精确推断( Exact Inference )算法是指可以计算出条件概率的精确解的算法.
- 变量消除法:这种方法是利用动态规划的思想,每次消除一个变量,来减少计算边际分布的计算复杂度,称为变量消除法( Variable Elimination Algorithm ).随着图模型规模的增长,变量消除法的收益越大.
- 信念传播算法:信念传播( Belief Propagation , BP )算法,也称为和积( Sum-Product )算法或消息传递( Message Passing )算法,是将变量消除法中的和积( Sum-Product )操作看作消息( Message ),并保存起来,这样可以节省大量的计算资源.
11.3.1 近似推断
近似推断( Approximate Inference )主要有以下三种方法:
-
环路信念传播:当图模型中存在环路,使用信念传播算法时,消息会在环路中一直传递,可能收敛或不收敛.环路信念传播( Loopy Belief Propagation ,LBP )是在具有环路的图上依然使用信念传播算法,即使得到不精确解,在某些任务上也可以近似精确解.
-
变分推断( Variational Inference )是引入一个变分分布(通常是比较简单的分布)来近似这些条件概率,然后通过迭代的方法进行计算.
-
采样法( Sampling Method ):通过模拟的方式来采集符合某个分布p(x) 的一些样本,并用这些样本来估计和分布 p(x) 有关的运算,比如期望等.
- 拒绝采样( Rejection Sampling )是一种间接采样方法,也称为接受 - 拒绝采样( Acceptance-Rejection Sampling ).
- 重要性采样( Importance Sampling )是通过引入重要性权重,将分布 p(x)下 q(x) 的期望变为在分布 q(x) 下 f(x)𝑤(x) 的期望.
- 马尔可夫链蒙特卡罗( Markov Chain Monte Carlo , MCMC )方法是一种更好的采样方法,可以很容易地对高维变量进行采样.
图 11.16 给出了概率图模型所涵盖的内容.