贝叶斯网络介绍2：贝叶斯网络和马尔可夫条件之基本概念

最新推荐文章于 2024-04-23 23:01:33 发布

I_belong_to_jesus

最新推荐文章于 2024-04-23 23:01:33 发布

阅读量1.9k

点赞数 5

分类专栏：贝叶斯机器学习

本文链接：https://blog.csdn.net/fangfanglovezhou/article/details/111465112

版权

贝叶斯机器学习专栏收录该内容

4 篇文章 1 订阅

订阅专栏

考虑 $l$ 个离散联合分布的随机变量，根据条件概率分布，我们知道，联合分布概率可表示为：

$P(x_1,x_2,....,x_l)=P(x_l|x_{l-1},x_{l-2},...,x_1)P(x_{l-1}|x_{l-2},x_{l-3},...,x_1)...P(x_1)$ (1)

设每个变量有 $k$ 个值，那么要求某个变量 $x_1$ 的概率取值，则要对其他所有变量求和，即

$P(x_1)=\sum_{x_2}...\sum_{x_l}P(x_2,....,x_l)$ (2)

对于变量有 $k$ 个值的情况，该问题的复杂度是 $O(k^l)$ ，显然复杂度非常高，实际应用中是不可行的，考虑另一种极端情况，即所有变量都是相互独立的，那么这个时候只需单独求 $P(x_1)$ ，也就是我们通常使用的朴素贝叶斯的方法。贝叶斯网络的方法介于两个极端之间，即每个变量的变化都依赖于其他所有变量的一个子集，此时联合概率分布可以表示为:

$P(x_1,x_2,....,x_l)=\prod_{i=1}^{l}p(x_i|Pa_i)$ (3)

这里， $Pa_i$ 对应与变量 $x_i$ 相关的变量集合，其为全体变量集合的一个子集，例如

$P(x_1,x_2,x_3,x_4,x_5,x_6)=P(x_6|x_4)P(x_5|x_3,x_4)P(x_4|x_1,x_2)P(x_3|x_1)p(x_2)p(x_1)$ （4）

公式（4）对应的贝叶斯网络结构为：

即 $Pa_6=\{x_4\}$ , $Pa_5=\{x_3,x_4\}$ , $Pa_4=\{x_1,x_2\}$ , $Pa_3=\{x_1\}$ , $Pa_2=\varnothing$ , $Pa_=\varnothing$ 。集合 $Pa_i$ 称为变量 $x_i$ 的父集合，从统计学的角度来看，如果给定父集合的值，那么变量 $x_i$ 统计独立于集合里所有其他变量，每一个 $p(x_i|Pa_i)$ 都表示了一种条件独立的关系，其给出了一个蕴含在多元集合中的概率结构，由于其相互独立的特性，我们可以利用此特性降低计算复杂度。

1.图的基本定义图的定义一般用 $G=\{V,E\}$ 表示， $V=\{x_1,...,x_l\}$ 为节点， $E \subset V \times V$ 表示节点间的互联关系即图的边，每一个成员都是一对连接关系（也就是一条边） $(x_i,x_j) \in E$ ，一条边可以是有方向（表示为 $(x_i\rightarrow x_j)$ ）的，也可以是无方向的，一条边将两个节点连接起来，如果结点 $x_1$ 可以通过一些列边连接到 $x_k$ ,那么我们称这些边组成的序列为 $x_1$ 到 $x_k$ 的路径（path），如果一条路径起终点为同一个节点，我们称之为循环（cycle）。有向图是指只包含有向边的图结构，若其结构内不存在cycle，那么称之为有向无循环图（directed acyclic graph,DAG)，如果 $x_i$ 可以通过一条路径连接到 $x_j$ ，那么 $x_i$ 称为 $x_j$ 的祖先，否则则为非祖先，如果存在一条边（有方向的）从 $x_i$ 到 $x_j$ ，那么 $x_i$ 称为 $x_j$ 的父节点， $x_j$ 称为 $x_i$ 的子点。这里要注意区分祖先节点和父节点地区别。
贝叶斯网络结构是一个DAG,其节点代表随机变量 $x_1,x_2,....,x_l$ ，其任一节点变量 $x_i$ 关于父节点集合条件独立于所有非祖先节点，这通常也被称为马尔科夫条件。这就是贝叶斯网络的基本定义，这里给出条件独立的定义：如果 $P(XY|Z)=P(X|Z)P(Y|Z)$ 或者等价地 $P(X|YZ)=P(X|Z)$ ,则称事件 $X$ 和 $Y$ 对于给定事件是 $Z$ 条件独立的，也就是说如果 $Z$ 发生时， $X$ 发生与否与 $Y$ 无关。需要注意一点条件独立和独立是不存在蕴含关系的。

那么基于此，下面介绍两个比较重要的定理：

定理1： $G$ 为一个贝叶斯网络结构， $p$ 为该图结构所有节点对应随机变量的联合概率分布，那么 $p$ 就等于所有节点关于父节点条件分布概率的乘积，通常称之为 $p$ 可以因式分解（factorizes over）于 $G$ 。且该定理反过来说也是正确的。

定理2：图 $G$ 为一个DAG,每一个节点都具有关于父节点的条件概率，那么这些条件概率的乘积得到了变量的联合分布，并且其满足马尔科夫条件。该定理是很有用的，因为在实际中，这通常是我们构建概率图模型的方式，对于我们要模型化的物理过程，使用推理的方法分层构建，并在图模型中编码条件独立关系。

我们对比下定理1和定理2，定理1假定了一种分布，基于潜在的条件独立建立了贝叶斯网络，定理2与之相反，基于网络结构，解释了每个节点的分布特性。

举一个例子：我们现在来研究一个国家的GNP与其教育水平、成年人工作类型的关系。 $x_1$ 为GNP,取2个值HGP和LGP分别对应高（high）和低（low）GNP； $x_2$ 为教育水平，取3个值NE、LE和HE分别表示未接受教育、低水平教育和高水平教育； $x_3$ 为工作类型，取3个值UN、LP和HP，分别对应无工作、低收入和高收入。使用足够多的样本，可以学习到如下概率：