第十章 有向图模型(贝叶斯网)
10.1 简介
我基本上知道用简单的方法处理复杂系统的两个原则:第一个是模块化原则,第二个是抽象原则。我是机器学习中计算概率的辩护者,因为我相信概率论以深刻而有趣的方式实现了这两个原则。在我看来,尽可能充分地利用这两种机制似乎是机器学习的前进方向。
假设我们观察到很多相关的变量,比如一个文章中的单词,一幅图上的像素点或者是微阵列中的基因。那么我们怎么样才能简洁的表示出这些变量的联合分布呢?我们如何利用这个分布在合理的计算时间内推断出给定的一组变量?我们如何用合理数量的数据学习这个分布的参数?这些问题是概率建模、推理和学习的核心,也是本章的主题。
10.1.1 链式法则
通过概率论的链式法则,我们可以把一个联合分布写成如下的形式,我们按照变量的顺序来写:
这个表达式的问题是,随着t变大,表示条件分布变得越来越复杂。
举个例子,假设所有的变量都是有K个状态的话。我们可以用一个(虽然实际上K-1就行,因为所有情况求和为1,为了简单我们就用)的表来表示离散的概率分布。类似的,对于,那么我们就要用的表才能表示,所以对于最后一个条件概率分布,我们则需要才行。这些都叫做条件概率表(conditional probability tables CPTs),所以参数太多了,我们需要大量的数据来学习这么多参数。
一种解决方案就是讲CPT替换成一个更加简单的概率分布,比如在逻辑回归中,,这里后面我觉得是,这样的话,参数的数目就被压缩到了,那么整个的参数的数目就是。后面的解释我没看懂,不过我们还是关注于后面的方法。
10.1.2 条件独立
有效地表示大型联合分布的关键是对条件独立性(conditional independence CI)做一些假设。在2.2.4中我们讲过一些关于条件独立的东西和例子,X,Y关于Z是条件独立的,可以写作,体现到具体的概率分布公式上就是:
如果做出这样的假设,,用语言描述就是:考虑到现在,未来是独立于过去的。这个就称之为(first order)Markov 假设,在这样的假设下,我们的联合分布就可以写成如下的形式:
这个称之为(first order)markov链。后面17.2会详细的讲markov模型。
10.1.3 图模型
first order的markov假设对于在1维的情况下,是能够很好的处理这样的联合分布的,但是对于二维的图像,三维的视频,甚至更复杂的变量的连接关系该怎么处理呢。下面我们将引入一个叫做图模型的东西。
我们用图模型(graphical model GM)来表述在某些CI假设下的联合概率分布。在图模型中,结点表示的是随机变量,而图里面的边表示的是CI假设。实际上,这些模型的更好名称应该是独立图,但是图模型这个术语现在已经根深蒂固了。图模型也是有很多种的,有向图,无向图,或者是有向和无向图。在我们这一章,我们只考虑有向图。
10.1.4 图的术语
我们先说一下图的基本的术语和定义,其中大部分都是非常直观的。
一个图包含结点和边,其中结点是,边是。我们可以用邻接矩阵(adjacency matrix)表示图,在这个矩阵中,如果,那么我们设定。对于无向图来说,否则就是有向图。我们一般假设,这意味着一个点不能够构成一个圈。下面左边是有向图,右边是无向图。
对于有向图来说,s的父节点就是,就是带箭头的起点。
对于有向图来说,s的孩子结点就是,就是s所指向的所有结点。
对于有向图,节点的族(family)是节点及其父节点,
对于有向图,根(root)就是没有父结点的结点
对于有向图,叶子(leaf)就是没有孩子结点的结点
对于有向图,s的祖先(ancestors)就是所有能够走到s的结点,包括父结点,grand-parent结点等,即
对于有向图,s的后代(Descendants)就是s所能够走到的所有的结点,即
对于无向图来说,相连的点就叫做邻居,对于有向图来说,s点的邻居就是s点的孩子
对于一个节点来说,一个结点的邻居的个数就是这个节点的度(degree),对于有向图来说,度分为in-degree和out-degree,分别指这个结点的父结点和孩子结点的数目。
圈或者环,对于一个无向图来说,就是能够构成一圈的,比如上图的123就构成一个圈,但是对于有向图是要看顺序的,理论上1243也连在了一起,但是由于不能按方向走回来,所以并不构成圈。
DAG(directed acyclic graph) 这个是表示没有有向环的有向图
拓扑排序(Topological ordering),对于一个DAG来说,如果其父结点的标号都比其子节点要小,那么就叫做拓扑排序的。
路径(path)就是表示从s走向t的有向的边构成的,就叫路径
树(tree),对于一个无向图来说,树就是指没有圈的图。对于有向图来说,有向树就是DAG。
森林(forest),森林就是一系列的树。
子图(subgraph),子图就是指选取一个图的集合点A以及相应的边构成的图,。
团(Clique),对于一个无向图来说,团是一系列结点构成的集合,这些点相互之间都是邻居。
10.1.5 有向图模型
有向图模型(directed graphical model,DGM)是一个DAG。这些通常被称为贝叶斯网络。然而,贝叶斯网络本身并没有什么贝叶斯性质:它们只是一种定义概率分布的方法。这些模型也被称为信念网络。这里的信念是指主观概率。同样,DGMs所代表的概率分布的类型本身并没有什么主观的东西。最后,这些模型有时被称为因果网络,因为有向箭头有时被解释为表示因果关系。然而,DGMs并没有内在的因果关系。出于这些原因,我们使用了更为中性(但不那么迷人)的术语DGM。出于这些原因,我们使用了更为中性(但不那么迷人)的术语DGM。就是告诉你什么贝叶斯网络,信念网络,因果网络其实都不靠谱,所以就叫DGM防止误导别人。
DAG有一个非常关键的性质,就是它一定可以进行拓扑排序,就是每一个节点的父节点是小于孩子节点的编号的。那么有了这样一个特性,我么就可以做一个叫做有序的markov 特性的假设,即:,其中就是s的父节点,就是s在排序上的前面的所有的节点。这是一阶马尔可夫性质从链到DAG的自然推广。我们还是以:
作为例子,那么我们有:,所以说在这样的markov假设下,我们有