什么是概率图模型
机器学习的方法很多时候是在计算联合分布,之后在联合分布上做一系列的推理。一般的联合分布定义较为复杂,如有n个随机变量的分布X
对于该分布通常十分复杂,参数量巨大,即便是在最简单的二值分布下也有个参数。参数量巨大通常意味着模型复杂,难以学习。但是真实的问题中可能我们的中有很多变量是相互独立的。而这些独立/条件独立的关系能够极大地化简模型。
概率图模型是用图论方法以表现数个独立随机变量之关系的一种建模法。其图中的任一节点为随机变量,若两节点间无边相接则意味此二变量彼此条件独立。两种常见的概率图模型是具有向性边的图及具无向性边的图。根据图的有向性,概率图模型可以分成两大类,分别是贝叶斯网络和马尔可夫网络。这两类网络均具有因子化和条件独立的性质,但条件独立的类型和将分布因子化的方式有所不同。
有向图和无向图分别能够表达不同的随机变量独立性。下图以贝叶斯网和马尔科夫网为例给出他们之间的关系,以便有个总体的认识,其中{P}代表全部的概率分布集合,{}为贝叶斯网络能够表示的概率分布,{}为马尔科夫网能够表示的概率分布。
图1
有向图模型(贝叶斯网)
定义:贝叶斯网络是定义在,其中是一个有向无环图(DAG),为条件概率,。那么
贝叶斯网联合分布:
其中表示的父节点
下图是一个贝叶斯网络的示意图。参数化网络时节点上定义的是给定父节点的条件概率(CPD),与联合概率分布中的相对应.
图2
在《概率图模型:原理与技术》中提到了I-map的概念。其实是说如果中表示的独立性断言是总体分布独立性断言的子集,那么是P的一个I-map(independence map)。这个I-map与贝叶斯网的因子分解又有对应关系。
独立性断言
贝叶斯网中,两个节点的连结只有直接连结和间接连结两种,比较好理解。但是贝叶斯网中有三种基本的链接方式, 分别代表三种独立性的独立性断言,分别是:间接因果作用(间接证据作用),共同原因,共同作用。这三种基本的断言方式,个人认为是十分有必要介绍的,因为直接决定了有向图模型与无向图模型的表达能力区别,分别如下:
图3
串连,间接因果(证据)作用,因果迹
图4
分连,共同原因
图5
汇连,共同作用
的独立性与的独立性在三种连结方式下有以下关系:
串连:观察到时条件独立
分连:观察到时条件独立
汇连:当未观察到及其后代节点时条件独立,这个结构也叫做v-结构(v-structure).
以上三种独立性依照概率知识很容易就可以证明,汇连关系给出的随机变量独立性有些迷惑性,需要思考一下。
串联:
分连:
关于汇连,当给定观测值时:
当不给定时:
第二个等号使用了贝叶斯网定义中的联合分布表示。
那么对于同一个概率分布,贝叶斯网的结构是不是唯一的呢?
然而并不是的,例如图3,图4都表达了,都可以描述同一个概率分布,但是两图并不同.当两个图具有相同的"骨架"并且具有相同的v-结构时,两者是等价的.
无向图模型(马尔科夫网):
马尔科夫网络定义在上,是一个无向图,并且有最大团,称之为势函数。相应的马尔科夫网联合概率表示为:
无向图模型表达的被连结的节点(随机变量)之间的影响是相互的,所以条件概率不再适用于无向图模型.马尔科夫网络中通过定义一系列的函数用来评价变量之间相互影响的紧密关系,称之为势函数或者因子,便是定义中的,值得注意的是这个其实是不能直接理解成概率的,也没有要归一化的限制.下图是一个无向图模型的例子:
对应该联合分布.
对于马尔科夫网络的变量之间的独立性直接与两个变量是否在图上被分离相对应.
马尔科夫网中的独立性有三种,分别是:局部独立性,全局独立性,成对独立性.
局部独立性,给定X的相邻节点,那么X与其他节点独立
成对独立性是这样,如果两个变量没有直接相连,那么必定存在某种方式使之独立,即.