MLAPP————第十章有向图模型（贝叶斯网）

最新推荐文章于 2024-08-06 18:40:23 发布

QQQiZZZ

最新推荐文章于 2024-08-06 18:40:23 发布

阅读量6.0k

点赞数 3

分类专栏： mlapp 文章标签： MLAPP DGM

本文链接：https://blog.csdn.net/marmove/article/details/83106343

版权

本章深入探讨了有向图模型（DGMs），即贝叶斯网，用于表示复杂系统的联合概率分布。核心概念包括链式法则、条件独立、图模型以及有向图模型的表示。通过引入图的术语，解释了一阶马尔可夫假设如何简化模型。接着，介绍了DGMs在朴素贝叶斯分类器、马尔可夫模型、医疗诊断和遗传连锁分析中的应用。此外，章节还涵盖了推理、学习以及DGMs的条件独立特性，如d-分离和全局马尔科夫特性。最后，讨论了决策图在多阶段决策问题中的作用。

摘要由CSDN通过智能技术生成

第十章有向图模型（贝叶斯网）

10.1 简介

我基本上知道用简单的方法处理复杂系统的两个原则:第一个是模块化原则，第二个是抽象原则。我是机器学习中计算概率的辩护者，因为我相信概率论以深刻而有趣的方式实现了这两个原则。在我看来，尽可能充分地利用这两种机制似乎是机器学习的前进方向。

假设我们观察到很多相关的变量，比如一个文章中的单词，一幅图上的像素点或者是微阵列中的基因。那么我们怎么样才能简洁的表示出这些变量的联合分布呢？我们如何利用这个分布在合理的计算时间内推断出给定的一组变量？我们如何用合理数量的数据学习这个分布的参数?这些问题是概率建模、推理和学习的核心，也是本章的主题。

10.1.1 链式法则

通过概率论的链式法则，我们可以把一个联合分布写成如下的形式，我们按照变量的顺序来写：

这个表达式的问题是，随着t变大，表示条件分布变得越来越复杂。

举个例子，假设所有的变量都是有K个状态的话。我们可以用一个 O(K) （虽然实际上K-1就行，因为所有情况求和为1，为了简单我们就用 O(K) ）的表来表示离散的概率分布 p(x_1) 。类似的，对于，那么我们就要用的表才能表示，所以对于最后一个条件概率分布，我们则需要 $O(K^{V-1})$ 才行。这些都叫做条件概率表（conditional probability tables CPTs），所以参数太多了，我们需要大量的数据来学习这么多参数。

一种解决方案就是讲CPT替换成一个更加简单的概率分布，比如在逻辑回归中，，这里后面我觉得是 $\mathbf W_t\mathbf x_{1:t}$ ，这样的话，参数的数目就被压缩到了 O(KV) ，那么整个的参数的数目就是 O(KV^2) 。后面的解释我没看懂，不过我们还是关注于后面的方法。

10.1.2 条件独立

有效地表示大型联合分布的关键是对条件独立性（conditional independence CI）做一些假设。在2.2.4中我们讲过一些关于条件独立的东西和例子，X,Y关于Z是条件独立的，可以写作，体现到具体的概率分布公式上就是：

如果做出这样的假设，，用语言描述就是：考虑到现在，未来是独立于过去的。这个就称之为（first order）Markov 假设，在这样的假设下，我们的联合分布就可以写成如下的形式：

这个称之为（first order）markov链。后面17.2会详细的讲markov模型。

10.1.3 图模型

first order的markov假设对于在1维的情况下，是能够很好的处理这样的联合分布的，但是对于二维的图像，三维的视频，甚至更复杂的变量的连接关系该怎么处理呢。下面我们将引入一个叫做图模型的东西。

我们用图模型（graphical model GM）来表述在某些CI假设下的联合概率分布。在图模型中，结点表示的是随机变量，而图里面的边表示的是CI假设。实际上，这些模型的更好名称应该是独立图，但是图模型这个术语现在已经根深蒂固了。图模型也是有很多种的，有向图，无向图，或者是有向和无向图。在我们这一章，我们只考虑有向图。

10.1.4 图的术语

我们先说一下图的基本的术语和定义，其中大部分都是非常直观的。

一个图 $G=(\mathcal V, \mathcal E)$ 包含结点和边，其中结点是 $\mathcal V = \{1,\cdots,V\}$ ，边是 $\mathcal E = \{(s,t):s,t\in\mathcal V\}$ 。我们可以用邻接矩阵（adjacency matrix）表示图，在这个矩阵中，如果 $（s,t）\in \mathcal E$ $(s,t) \in\mathcal E$ ，那么我们设定 G(s,t) = 1 。对于无向图来说，否则就是有向图。我们一般假设，这意味着一个点不能够构成一个圈。下面左边是有向图，右边是无向图。

对于有向图来说，s的父节点就是，就是带箭头的起点。

对于有向图来说，s的孩子结点就是，就是s所指向的所有结点。

对于有向图，节点的族（family）是节点及其父节点，

对于有向图，根（root）就是没有父结点的结点

对于有向图，叶子（leaf）就是没有孩子结点的结点

对于有向图，s的祖先（ancestors）就是所有能够走到s的结点，包括父结点，grand-parent结点等，即

对于有向图，s的后代（Descendants）就是s所能够走到的所有的结点，即

对于无向图来说，相连的点就叫做邻居，对于有向图来说，s点的邻居就是s点的孩子

对于一个节点来说，一个结点的邻居的个数就是这个节点的度（degree）,对于有向图来说，度分为in-degree和out-degree，分别指这个结点的父结点和孩子结点的数目。

圈或者环，对于一个无向图来说，就是能够构成一圈的，比如上图的123就构成一个圈，但是对于有向图是要看顺序的，理论上1243也连在了一起，但是由于不能按方向走回来，所以并不构成圈。

DAG(directed acyclic graph) 这个是表示没有有向环的有向图

拓扑排序（Topological ordering），对于一个DAG来说，如果其父结点的标号都比其子节点要小，那么就叫做拓扑排序的。

路径（path）就是表示从s走向t的有向的边构成的，就叫路径

树（tree）,对于一个无向图来说，树就是指没有圈的图。对于有向图来说，有向树就是DAG。

森林（forest），森林就是一系列的树。

子图（subgraph），子图就是指选取一个图的集合点A以及相应的边构成的图，。

团（Clique）,对于一个无向图来说，团是一系列结点构成的集合，这些点相互之间都是邻居。

10.1.5 有向图模型

有向图模型（directed graphical model，DGM）是一个DAG。这些通常被称为贝叶斯网络。然而，贝叶斯网络本身并没有什么贝叶斯性质:它们只是一种定义概率分布的方法。这些模型也被称为信念网络。这里的信念是指主观概率。同样，DGMs所代表的概率分布的类型本身并没有什么主观的东西。最后，这些模型有时被称为因果网络，因为有向箭头有时被解释为表示因果关系。然而，DGMs并没有内在的因果关系。出于这些原因，我们使用了更为中性(但不那么迷人)的术语DGM。出于这些原因，我们使用了更为中性(但不那么迷人)的术语DGM。就是告诉你什么贝叶斯网络，信念网络，因果网络其实都不靠谱，所以就叫DGM防止误导别人。

DAG有一个非常关键的性质，就是它一定可以进行拓扑排序，就是每一个节点的父节点是小于孩子节点的编号的。那么有了这样一个特性，我么就可以做一个叫做有序的markov 特性的假设，即：，其中就是s的父节点，就是s在排序上的前面的所有的节点。这是一阶马尔可夫性质从链到DAG的自然推广。我们还是以：