机器学习笔记之概率图模型(二)贝叶斯网络的结构表示

静静的喝酒

已于 2022-12-26 11:01:18 修改

阅读量1.6k

点赞数 7

分类专栏：机器学习文章标签：贝叶斯网络 Respresentation 概率图模型条件独立性

于 2022-10-18 18:21:55 首次发布

本文链接：https://blog.csdn.net/qq_34758157/article/details/127386416

版权

机器学习专栏收录该内容

195 篇文章 230 订阅

订阅专栏

机器学习笔记之概率图模型——贝叶斯网络的结构表示

引言

引言

上一节介绍了概率图模型的背景以及相关任务。本节将从有向图(贝叶斯网络)出发，介绍贝叶斯网络的结构表示(Representation)。

回顾：

概率图的本质

概率图模型这个概念想要表达的核心是：变量之间的相关性信息。实际上，在朴素贝叶斯分类器一节中，就已经对这个相关性信息进行了初步探索。

在介绍朴素贝叶斯假设与高斯判别分析之间的区别时，两者之间的主要区别在于：相比于高斯判别分析对整个数据集合的概率分布 $\mathcal P(\mathcal X \mid \mathcal Y)$ 进行假设，朴素贝叶斯分类器对 $\mathcal P(\mathcal X \mid \mathcal Y)$ 的假设更加细致，它的想法精确到了样本 $\mathcal X$ 的各个维度。

以二分类为例，高斯判别分析的假设表示如下：
$\mathcal Y \sim Bernoulli(\phi) \\ \mathcal X \mid \mathcal Y = 0 \sim \mathcal N(\mu_1,\Sigma) \\ \mathcal X \mid \mathcal Y = 1 \sim \mathcal N(\mu_2,\Sigma)$

这里关注的重点在于：无论样本集合 $\mathcal X$ 的维度是多少，在标签 $\mathcal Y$ 确定的条件下， $\mathcal X$ 的每个维度均服从相同的概率分布。
依然以二分类为例，朴素贝叶斯的假设表示如下：
$x_i \perp x_j \mid \mathcal Y \quad (i,j \in \{1,2,\cdots,p\};i\neq j;\mathcal Y \in \{0,1\}) \\ \begin{aligned} \mathcal P(\mathcal X \mid \mathcal Y) & = \mathcal P(x_1,\cdots,x_p \mid \mathcal Y) \\ & = \prod_{i=1}^p \mathcal P(x_i \mid \mathcal Y) \end{aligned}$
虽然这个假设非常简单，以至于假设的条件非常苛刻，但是该模型确实对样本集合的维度进行了更加细致的假设。

而概率图模型相比于朴素贝叶斯假设以及马尔可夫性质，它对变量/特征们的约束更加宽松，基于条件独立性假设，将变量/特征们之间的关联关系表示为图结构：

若变量/特征们之间存在显示的因果关系(在概率图中结点之间可用箭头连接)，则使用 贝叶斯网络构建概率图；
若变量/特征们之间仅知道存在相关性(在概率图中即结点之间存在边，但箭头方向未知)，则使用 马尔可夫网络/马尔可夫随机场构建概率图。

条件独立性与链式法则

针对样本集合 $\mathcal X$ 的 概率分布/概率模型 $\mathcal P(\mathcal X)$ ，我们从维度角度观察，可将 $\mathcal P(\mathcal X)$ 看作成各维度信息的联合概率分布形式：
$\mathcal P(\mathcal X) = \mathcal P(x_1,x_2,\cdots,x_p)$
针对联合概率分布的求解，最朴素的方法是条件概率的链式法则：
$\begin{aligned} \mathcal P(x_1,x_2,x_3) & = \mathcal P(x_1) \cdot \mathcal P(x_2 \mid x_1) \cdot \mathcal P(x_3 \mid x_1,x_2) \\ \mathcal P(x_1,\cdots,x_p) & = \mathcal P(x_1) \cdot \prod_{i=2}^p \mathcal P(x_i \mid x_1,\cdots,x_{i-1}) \end{aligned}$

由于 $\mathcal X$ 维度过高的情况下，链式法则求解 $\mathcal P(x_1,\cdots,x_p)$ 的计算量极高，因为链式法则中，任意两个特征/变量我们都要求解其关联关系。

而条件独立性在 最小化约束特征之间关系的同时，还可以极大程度地简化运算：
$x_{\mathcal A} \perp x_{\mathcal B} \mid x_{\mathcal C}$
其中 $x_{\mathcal A},x_{\mathcal B},x_{\mathcal C}$ 表示一个或者多个变量/特征组成的集合，并且 $x_{\mathcal A},x_{\mathcal B},x_{\mathcal C}$ 内元素互不相交。
而条件独立性的文字描述 即：在 $x_{\mathcal C}$ 中变量给定的条件下， $x_{\mathcal A},x_{\mathcal B}$ 变量之间相互独立。

贝叶斯网络与条件独立性

条件概率对边的方向性表达

贝叶斯网络根据条件独立性，通过有向图 对联合概率分布进行表达。
一个贝叶斯网络由结构表示 $\mathcal G$ 和参数集合 $\Theta$ 两部分构成，而 $\mathcal G$ 是一个 有向无环图，每个结点对应一个随机变量/特征；两个结点之间连接的边表示两结点之间存在显式的因果关系，从而使用 $\Theta$ 集合中两结点的对应结果表示这种关系。
注意关于结点的描述：无论是视频还是西瓜书，都对结点的描述是‘一个属性/特征’，而不是特征集合的形式。欢迎小伙伴一起讨论。
示例1：以两个结点的贝叶斯网络为例：
简单有向图
观察上述有向图，我们使用条件概率对该有向边的方向性进行表示。具体表示如下：
由于整个‘贝叶斯网络’只有一条有向边，因此‘参数集合’ $\Theta$ 表示该有向边的条件概率信息。
$\mathcal P(i_2 \mid i_1) = \Theta$
假设特征 $i_1,i_2$ 均服从伯努利分布，参数集合 $\Theta$ 示例如下：
明显是一个‘右随机矩阵’~

	$i_1 = 0$	$i_1 = 1$
$i_2 = 0$	$0.1$	$0.9$
$i_2 = 1$	$0.7$	$0.3$

因此，上述概率图中有向边的方向性可以进行如下表达：
$\mathcal P(i_2 = 0 \mid i_1 = 1) = 0.9$

基于贝叶斯网络列出联合概率分布

如何表示上述贝叶斯网络的联合概率分布，即 $\mathcal P(i_1,i_2)$ ?

首先找到入度为零的结点，并指定该特征的概率为边缘概率。在当前概率图中，入度为零的结点时 $i_1$ ，它的概率结果表示为： $\mathcal P(i_1)$ 。
由于‘入度为零’的结点的概率不需要其他结点作为条件而发生，因此时边缘概率。
找出图中的有向边，并对有向边的方向性进行表达：
$\mathcal P(i_2 \mid i_1)$
此时，图中全部结点和有向边全部表示完成，联合概率分布表示如下：
$\mathcal P(i_1,i_2) = \mathcal P(i_1) \cdot \mathcal P(i_2 \mid i_1)$

示例2：构造一个稍复杂的贝叶斯网络如下：
在这里插入图片描述
根据上述步骤，联合概率分布表示如下：

找出入度为零结点 $i_1 \to \mathcal P(i_1)$ ；
图中一共包含 $3$ 条有向边，对应条件概率表示如下：
$\mathcal P(i_2 \mid i_1),\mathcal P(i_3 \mid i_1),\mathcal P(i_4 \mid i_2)$
最终联合概率分布 $\mathcal P(i_1,i_2,i_3,i_4)$ 表示如下：
$\mathcal P(i_1,i_2,i_3,i_4) = \mathcal P(i_1) \cdot \mathcal P(i_2 \mid i_1)\cdot \mathcal P(i_3 \mid i_1)\cdot \mathcal P(i_4 \mid i_2)$

基于联合概率分布构建概率图

如何基于给定的联合概率分布构建概率图？
使用拓扑排序的顺序进行构建。
示例3：已知联合概率分布表示如下：
$\mathcal P(i_1,i_2,i_3,i_4,i_5) = \mathcal P(i_1) \cdot \mathcal P(i_2) \cdot \mathcal P(i_3 \mid i_1) \cdot \mathcal P(i_4 \mid i_1,i_2) \cdot \mathcal P(i_5 \mid i_2)$

首先，找到入度为零的结点，即拓扑排序的初始结点，在联合概率分布中，该结点即 写成边缘概率分布形式的结点，这里是指 $i_1,i_2$ ，并将该结点存储起来：
基于该结点，分别找到以入度为零结点或者其联合概率分布作为条件的条件概率：这里是指 $\mathcal P(i_3 \mid i_1)，\mathcal P(i_5 \mid i_2)\mathcal P(i_4 \mid i_1,i_2)$ 。并将探索到的结点 $i_3,i_5,i_4$ 存储起来；
观察联合概率分布中的各项是否表示完成，若未完成，查找以存储结点或者其联合概率分布为条件，查找满足条件的项，从而找出新的结点。如果完成，则结束查找。

基于上述逻辑，如果给定贝叶斯网络的表达方式，我们可以根据贝叶斯网络写出各结点的联合概率分布：
称其为’因子分解‘。
$\mathcal P(x_1,x_2,\cdots,x_p) = \prod_{i=1}^p \mathcal P(x_i \mid x_{pa(i)})$
其中 $x_{pa(i)}$ 表示结点 $x_i$ 的父结点组成的集合。所谓父结点，即通过有向边指向结点 $x_i$ 的结点。可以看出，父结点可能不唯一，如上图中的 $i_4$ 结点，其父结点包含两个： $i_1,i_2$ 。

对比原始联合概率分布表达和基于概率图产生的联合概率分布：
$\begin{cases} \mathcal P(x_1,\cdots,x_p) = \mathcal P(x_1) \cdot \prod_{i=2}^p \mathcal P(x_i \mid x_1,\cdots,x_{i-1}) \\ \mathcal P(x_1,x_2,\cdots,x_p) = \prod_{i=1}^p \mathcal P(x_i \mid x_{pa(i)}) \end{cases}$
明显可以看出基于概率图产生的联合概率分布，它的条件项部分明显减少了：
将原始条件中的 $i - 1$ 个结点减少为若干个存在关联关系的’父结点‘。这种操作极大程度地简化了运算。
$x_1,x_2,\cdots,x_{i-1} \to x_{pa(i)}$
关于概率图的逻辑：
之所以可以使用 因子分解 的方式表达联合概率分布，是基于概率图能够表达概率模型 $\mathcal P(\mathcal X)$ 中的条件独立性。如果概率图不能表达特征中的条件独立性，概率图自身无意义。

相反，并不是所有的概率模型都可以使用概率图进行表达，如果样本集合 $\mathcal X$ 的概率模型 $\mathcal P(\mathcal X)$ 自身没有条件独立性，概率图自然也无法构建出来。

概率图中条件独立性的识别

同父结构

假设已知存在一个概率图，该概率图内部存在如下形状：
同父结构

我们称该结构为同父结构(Common Parent)，即结点 $i_2,i_3$ 存在相同的父结点 $i_1$ 。该结构中表现出的现象是：给定父结点 $i_1$ 的取值，则 $i_2,i_3$ 条件独立。具体推导如下：

首先通过因子分解描述该形状的联合概率分布 $\mathcal P(i_1,i_2,i_3)$ ：
$\mathcal P(i_1,i_2,i_3) = \mathcal P(i_1) \cdot \mathcal P(i_2 \mid i_1) \cdot \mathcal P(i_3 \mid i_1)$
再通过联合概率分布的链式法则求解联合概率分布 $\mathcal P(i_1,i_2,i_3)$ ：
链式法则就和’概率图‘没有什么关系了,它是一直成立的。
$\mathcal P(i_1,i_2,i_3) = \mathcal P(i_1) \cdot \mathcal P(i_2 \mid i_1) \cdot \mathcal P(i_3 \mid i_1,i_2)$
这两个公式描述的是同一个概率分布，则有：
$\mathcal P(i_1) \cdot \mathcal P(i_2 \mid i_1) \cdot \mathcal P(i_3 \mid i_1) = \mathcal P(i_1) \cdot \mathcal P(i_2 \mid i_1) \cdot \mathcal P(i_3 \mid i_1,i_2)$
消去 $\mathcal P(i_1),\mathcal P(i_2 \mid i_1)$ ，有：
但从该式观察， $i_2$ 无论是否作为条件发生，都不会影响 $i_3$ 的条件概率结果，这实际上已经证明了 $i_2,i_3$ 相互独立。
$\mathcal P(i_3 \mid i_1,i_2) = \mathcal P(i_3 \mid i_1)$
基于上述等式，最优两端同乘 $\mathcal P(i_2 \mid i_1)$ ：
$\mathcal P(i_3 \mid i_1,i_2) \cdot \mathcal P(i_2 \mid i_1) = \mathcal P(i_3 \mid i_1) \cdot \mathcal P(i_2 \mid i_1) \\ \mathcal P(i_2,i_3 \mid i_1) = \mathcal P(i_3 \mid i_1) \cdot \mathcal P(i_2 \mid i_1)$
该公式意味着：结点 $i_1$ 给定的条件下， $i_2,i_3$ 的联合概率分布结果等于各自条件概率的乘积结果。即 给定 $i_1$ 条件下， $i_2,i_3$ 相互独立：
$i_2 \perp i_3 \mid i_1$

如果从概率图本身角度出发，同父结构 本身就蕴含了条件独立性。而并非是将条件独立性强加给同父结构产生的结果。后续结构同理。

顺序结构

假设概率图中存在如下形状：

我们称该结构为顺序结构，即 $i_1,i_2,i_3$ 三个结点首位相连。该结构表现的现象是：当 $i_2$ 被观测时， $i_1,i_3$ 相互独立。具体推导过程如下：

通过因子分解描述顺序结构情况下的联合概率分布：
将‘同父结构’与‘顺序结构’的联合概率分布进行对比，只是最后一项存在差异，但推导过程与‘同父结构’中完全相同。
$\begin{cases} \mathcal P(i_1,i_2,i_3) = \mathcal P(i_1) \cdot \mathcal P(i_2 \mid i_1) \cdot \mathcal P(i_3 \mid i_1) \quad Common Parent \\ \mathcal P(i_1,i_2,i_3) = \mathcal P(i_1) \cdot \mathcal P(i_2 \mid i_1) \cdot \mathcal P(i_3 \mid i_2) \quad Sequence \end{cases}$
对应的链式法则表示结果：
$\mathcal P(i_1,i_2,i_3) = \mathcal P(i_1) \cdot \mathcal P(i_2 \mid i_1) \cdot \mathcal P(i_3 \mid i_1,i_2)$
两联合概率取等，有：
$\mathcal P(i_1) \cdot \mathcal P(i_2 \mid i_1) \cdot \mathcal P(i_3 \mid i_1,i_2) = \mathcal P(i_1) \cdot \mathcal P(i_2 \mid i_1) \cdot \mathcal P(i_3 \mid i_2) \\ \mathcal P(i_3 \mid i_1,i_2) = \mathcal P(i_3 \mid i_2)$
等式两边同乘 $\mathcal P(i_1 \mid i_2)$ ：
$\mathcal P(i_1 \mid i_2) \cdot \mathcal P(i_3 \mid i_1,i_2) = \mathcal P(i_3 \mid i_2) \cdot \mathcal P(i_1 \mid i_2) \\ \mathcal P(i_1,i_3 \mid i_2) = \mathcal P(i_3 \mid i_2) \cdot \mathcal P(i_1 \mid i_2)$
该公式意味着：结点 $i_2$ 给定的条件下， $i_1,i_3$ 的联合概率分布结果等于各自条件概率的乘积结果。即 给定 $i_2$ 条件下， $i_1,i_3$ 相互独立：
$i_1 \perp i_3 \mid i_2$

$\mathcal V$ 型结构

$\mathcal V$ 型结构(V-structure)也称冲撞结构，其对应形状表示如下：

该结构表现的现象是：结点 $i_3$ 给定的条件下， $i_1,i_2$ 必不独立；若 $i_3$ 结点取值未知， $i_1,i_2$ 相互独立。

对该现象进行解释：
针对该现象的个人理解，只能解释后半部分，而前半部分是后半部分对立条件下产生的结果。
首先解释什么是给定，什么是未知？
回顾条件概率的定义式：
$\mathcal P(\mathcal A \mid \mathcal B)$
上式是指事件 $\mathcal A$ 在另外一个事件 $\mathcal B$ 已经发生条件下的发生概率。这句话中，我们能够得到两个信息：

事件 $\mathcal B$ 是 已经发生的，是给定的；
事件 $\mathcal A$ 发生是以概率的形式表现的。因此，事件 $\mathcal A$ 是否发生是未知的。

回顾顺序结构和同父结构，它们的描述与对应的概率结果是同步的：

顺序结构：给定 $i_2$ 条件下，则 $i_1,i_3$ 相互独立：
$i_2$ 在‘|’后面，它是给定的。
$\mathcal P(i_1,i_3 \mid i_2) = \mathcal P(i_3 \mid i_2) \cdot \mathcal P(i_1 \mid i_2)$
同父结构：给定 $i_1$ 条件下，则 $i_2,i_3$ 条件独立：
$i_1$ 在'|'后面，它是给定的。
$\mathcal P(i_2,i_3 \mid i_1) = \mathcal P(i_3 \mid i_1) \cdot \mathcal P(i_2 \mid i_1)$

根据上面的规律，有：
在条件概率的条件部分('|'后面)，就是给定的；在条件概率的概率部分(‘|’前面)，就是未知的。

至此，我们针对 $\mathcal V$ 型结构的推导如下：

通过因子分解描述 $\mathcal V$ 型结构情况下的联合概率分布：
$\mathcal P(i_1,i_2,i_3) = \mathcal P(i_1) \cdot \mathcal P(i_2) \cdot \mathcal P(i_3 \mid i_1,i_2)$
通过链式法则求解 $\mathcal V$ 型结构情况下的联合概率分布：
$\mathcal P(i_1,i_2,i_3) = \mathcal P(i_1) \cdot \mathcal P(i_2 \mid i_1) \cdot \mathcal P(i_3 \mid i_1,i_2)$
上述两个联合概率分布取等。有：
$\mathcal P(i_1) \cdot \mathcal P(i_2) \cdot \mathcal P(i_3 \mid i_1,i_2) = \mathcal P(i_1) \cdot \mathcal P(i_2 \mid i_1) \cdot \mathcal P(i_3 \mid i_1,i_2) \\ \mathcal P(i_2) = \mathcal P(i_2 \mid i_1)$