概率有向图模型之贝叶斯网络

最新推荐文章于 2025-04-19 14:01:57 发布

uuup111

最新推荐文章于 2025-04-19 14:01:57 发布

阅读量2k

点赞数 3

分类专栏：机器学习

本文链接：https://blog.csdn.net/qq_34197944/article/details/104893619

版权

机器学习专栏收录该内容

36 篇文章

订阅专栏

慕课上北理工的课

2.5 有向分离（D-Separation）

2.6 贝叶斯网络构造步骤

1.概率有向图模型

1.1 基本原理

使用有向无环图表示变量之间的关系

1.2 例子:

3个变量的全连接概率图模型

根据概率乘积规则：关于变量 $x_{1},x_{2},x_{3}$ 的联合概率分布 $P(x_{1}, x_{2},x_{3})=P(x_{3}|x_{1},x_{2})P(x_{2}|x_{1})p(x_{1})$
每个变量都对应于一个结点。上图中，存在一条从结点x1指向x2的有向边，故结点x1是结点x2的父结点，结点x2是结点x1的子结点。
每个条件概率都对应于一条有向边，起点是条件概率中条件随机变量对应的结点。

推广至k个变量的全连接概率图模型

k个变量的联合概率分布 $p(x_{1}...x_{k})=p(x_{k}|x_{1}...x_{k-1})...p(x_{2}|x_{1})p(x_{1})$
完全一般的联合概率分布对应于全连接概率图模型

非全连接概率图模型

$p(x_{1})p(x_{2})p(x_{3}|x_{1},x_{2})p(x_{4}|x_{1},x_{3})p(x_{5}|x_{4})p(x_{6}|x_{3},x_{4},x_{5})$ 对应的概率图模型为：

1.3 结论

图的所有结点上定义的联合概率分布由每个结点上的条件概率分布的乘积表示，
每个条件概率分布的条件都是图中结点的父结点所对应的变量
一个有k个结点的图，它的联合概率为： $p(x_{1}...x_{k})=\prod_{k=1}^{K}p(x_{k}|x_{1},x_{2},...x_{k-1})=\prod_{k=1}^{K}p(x_{k}|pa_{k})$ 。其中， $pa_{k}$ 表示结点 $x_{k}$ 的父节点的集合 $pa_{k}\subseteq \left \{ x_{1},x_{2},...,x_{k} \right \}$ 。此公式表示有向图模型的联合概率分布的分解属性。
注意：有向图中不能存在有向环。

2.贝叶斯网络

2.1 贝叶斯网络概念

贝叶斯网络起源于贝叶斯统计学，是以概率论为基础的有向图模型，是用来表示变量间概率依赖关系的有向无环图。在统计学、推荐系统、图像识别等领域具有广泛的应用价值。

结点表示随机变量，是对过程、时间、状态等实体的某些特征的描述。
有向边表示变量间的概率依赖关系。
两个条件独立性：结点与其非后代结点条件独立；给定一个结点的马尔可夫覆盖，此结点和网络中所有其他结点条件独立。

形象化描述

贝叶斯网络N表示为： $N=(G,\Theta )$ 。

$G=<V,E>$ ，节点集 $V=\left\{V_{1},V_{2},...,V_{n}\right\}$ ，边集 $E=\left\{ E_{1},E_{2},...,E_{m} \right\}$ ，表示结点关系的有向无环图，即贝叶斯网络结构；
$\Theta =\left\{\theta _{1} ,\theta_{2},...,\theta_{n}\right\}$ 表示每个结点 $V_{i}$ 在它父结点集 $pa(X_{i})$ 条件下的条件概率，即贝叶斯网络参数。

特点

是一种不定性因果关联模型
具有强大的不确定性问题处理能力
具有良好的可理解性和逻辑性
可结合先验知识，用图形化模型描述数据间的相互关系，便于进行预测分析
能有效地进行多元信息表达与融合

2.2 贝叶斯定理

贝叶斯定理描述的是先验概率与后验概率之间的关系。

先验概率是指事件A还未发生时，对事件A发生的可能性预测的数学表示；如抛一次硬币时，假设事件A为正面朝上，P（A）=0.5意味着：抛一次硬币正面朝上的先验概率为0.5。
后验概率是指在事件A发生后，判断事件A发生是由原因B引起的概率或者在B情况下，事件A发生的概率。主要的公式有全概率公式和条件概率。

在随机事件B发生的情况下，求随机事件A发生的概率： $P(A|B)=\frac{P(B|A)P(A)}{P(B)}$

推导过程如下：

$\begin{aligned} & \because P(B|A)=\frac{P(A\bigcap B)}{P(A)}\\ &\therefore P(A\bigcap B)=P(B|A)P(A)\\ &\because P(A|B)=\frac{P(A\bigcap B)}{P(B)}\\ &\therefore P(A|B)=\frac{P(A\bigcap B)}{P(B)}=\frac{{{P(B|A)P(A)} }}{P(B)}\\ \end{aligned}$

贝叶斯定理可以表述下列情形：

设 $x$ 是观测向量， $\theta$ 是未知向量，联合密度是 $p(x,\theta)$ ，他们的边际密度分别是 $p(x), p(\theta)$ ，通过观测向量 $x$ 获得未知参数向量 $\theta$ 的估计，则 $p(\theta|x)=\frac{\pi (\theta)p(x|\theta)}{p(x)}=\frac{\pi (\theta)p(x|\theta)}{\int \pi (\theta)p(x|\theta)d\theta}$ 。其中， $\pi (\theta)$ 为 $\theta$ 的先验分布。

传统估计参数方法，如最大似然估计，在估计参数时只考虑了样本信息；而贝叶斯网络对未知参数向量的估计中，综合了它的先验信息和样本信息。

贝叶斯方法对未知参数向量估计的特点：

将未知参数x看成是随机向量。这是贝叶斯方法与传统参数估计方法的最大区别。
计算后验分布密度，做出对未知参数的推断
根据以往对参数 $\theta$ 的知识，确定先验分布 $\pi (\theta )$ 。（这是贝叶斯方法容易引起争议的一部，由此受到经典统计界的攻击）

2.3 贝叶斯假设

如果没有任何以往的知识来帮助确定 $\pi (\theta )$ ，贝叶斯提出可以采用均匀分布作为其分布。但贝叶斯假设在处理无信息先验分布，尤其是未知参数无界的情况时遇到困难。

2.4 经验贝叶斯估计

经验贝叶斯估计：把经典的方法和贝叶斯方法结合在一起，用经典的方法获得样本的边际密度 $p(x)$ ，然后通过 $p(x)=\int_{-\propto }^{+\propto }\pi (\theta )p(x|\theta )d\theta$ 来确定先验分布 $\pi (\theta )$ 。

2.5 有向分离（D-Separation）

有向分离也称为D分离，对应于概率论中的条件独立性，目的是从图的角度寻找结点之间的条件独立性。

主要考虑三类特殊的结点连接：

其中，结点 $X_{k}$ 分别被称为头对尾结点、尾对尾结点和头对头结点。

根据条件独立知识，在顺序连接和发散连接中，若结点 $X_{k}$ 未知，则结点 $X_{i}$ 与结点 $X_{j}$ 相关; 若结点 $X_{k}$ 已知，则结点 $X_{i}$ 与结点 $X_{j}$ 条件独立，即则结点 $X_{i}$ $X_{j}$ 被 $X_{k}$ 有向分离。

贝叶斯网络 $N=(G,\Theta )$ ， $X_{i}$ 和 $X_{j}$ 是G中任意不相邻的两个结点，Z表示连接 $X_{i}$ 和 $X_{j}$ 路径上的结点集，并且Z不包含 $X_{i}$ 和 $X_{j}$ 点，l是连接 $X_{i}$ 和 $X_{j}$ 的任意一条路径。若Z满足至少以下三个条件之一，则称l是关于Z的一条阻断路径， $X_{i}$ 和 $X_{j}$ 被Z有向分离 $desp_{G}(X_{i},Z,X_{j})$ ，又记作 $X_{i}\amalg X_{j}|Z$ 。

在顺序连接中，Z包含l中不同于 $X_{i}$ 和 $X_{j}$ 的某一头对尾结点
在发散连接中，Z包含l中不同于 $X_{i}$ 和 $X_{j}$ 的某一尾对尾结点
在收敛连接中，Z包含l中不同于 $X_{i}$ 和 $X_{j}$ 的某一头对头结点及其子孙结点

结点集之间的有向分离：假设A、B和Z是在G中的三个互不相交的结点集，对于任意的结点 $A_{i}\epsilon A$ 和任意的 $B_{i}\epsilon B$ ，若 $A_{i}$ 和 $B_{i}$ 都被Z有向分离，则称成A和B被Z有向分离 $desp_{G}(A,Z,B)$ ,又记作 $A\amalg B|Z$ 。