概率有向图模型之贝叶斯网络

慕课上北理工的课

目录

1.概率有向图模型

1.1 基本原理

1.2 例子:

 1.3 结论

2.贝叶斯网络

2.1 贝叶斯网络概念

2.2 贝叶斯定理

2.3 贝叶斯假设

2.4 经验贝叶斯估计

2.5 有向分离(D-Separation)

2.6 贝叶斯网络构造步骤


1.概率有向图模型

1.1 基本原理

使用有向无环表示变量之间的关系

1.2 例子:

3个变量的全连接概率图模型

  • 根据概率乘积规则:关于变量x_{1},x_{2},x_{3}的联合概率分布P(x_{1}, x_{2},x_{3})=P(x_{3}|x_{1},x_{2})P(x_{2}|x_{1})p(x_{1}) 
  • 每个变量都对应于一个结点。上图中,存在一条从结点x1指向x2的有向边,故结点x1是结点x2的父结点,结点x2是结点x1的子结点。
  • 每个条件概率都对应于一条有向边,起点是条件概率中条件随机变量对应的结点。

推广至k个变量的全连接概率图模型

  • k个变量的联合概率分布p(x_{1}...x_{k})=p(x_{k}|x_{1}...x_{k-1})...p(x_{2}|x_{1})p(x_{1})
  • 完全一般的联合概率分布对应于全连接概率图模型

非全连接概率图模型

p(x_{1})p(x_{2})p(x_{3}|x_{1},x_{2})p(x_{4}|x_{1},x_{3})p(x_{5}|x_{4})p(x_{6}|x_{3},x_{4},x_{5})对应的概率图模型为:

 1.3 结论

  • 图的所有结点上定义的联合概率分布由每个结点上的条件概率分布的乘积表示,
  • 每个条件概率分布的条件都是图中结点的父结点所对应的变量
  • 一个有k个结点的图,它的联合概率为:p(x_{1}...x_{k})=\prod_{k=1}^{K}p(x_{k}|x_{1},x_{2},...x_{k-1})=\prod_{k=1}^{K}p(x_{k}|pa_{k})。其中,pa_{k}表示结点x_{k}的父节点的集合pa_{k}\subseteq \left \{ x_{1},x_{2},...,x_{k} \right \}。此公式表示有向图模型的联合概率分布的分解属性。
  • 注意:有向图中不能存在有向环

 

2.贝叶斯网络

2.1 贝叶斯网络概念

贝叶斯网络起源于贝叶斯统计学,是以概率论为基础的有向图模型,是用来表示变量间概率依赖关系有向无环图。在统计学、推荐系统、图像识别等领域具有广泛的应用价值。

  • 结点表示随机变量,是对过程、时间、状态等实体的某些特征的描述。
  • 有向边表示变量间的概率依赖关系。
  • 两个条件独立性:结点与其非后代结点条件独立;给定一个结点的马尔可夫覆盖,此结点和网络中所有其他结点条件独立。

 

形象化描述

贝叶斯网络N表示为:N=(G,\Theta )

  • G=<V,E>,节点集V=\left\{V_{1},V_{2},...,V_{n}\right\},边集E=\left\{ E_{1},E_{2},...,E_{m} \right\},表示结点关系的有向无环图,即贝叶斯网络结构
  • \Theta =\left\{\theta _{1} ,\theta_{2},...,\theta_{n}\right\}表示每个结点V_{i}在它父结点集pa(X_{i})条件下的条件概率,即贝叶斯网络参数

 

特点

  • 是一种不定性因果关联模型
  • 具有强大的不确定性问题处理能力
  • 具有良好的可理解性和逻辑性
  • 可结合先验知识,用图形化模型描述数据间的相互关系,便于进行预测分析
  • 能有效地进行多元信息表达与融合

 

2.2 贝叶斯定理

贝叶斯定理描述的是先验概率与后验概率之间的关系。

  • 先验概率是指事件A还未发生时,对事件A发生的可能性预测的数学表示;如抛一次硬币时,假设事件A为正面朝上,P(A)=0.5意味着:抛一次硬币正面朝上的先验概率为0.5。
  • 后验概率是指在事件A发生后,判断事件A发生是由原因B引起的概率或者在B情况下,事件A发生的概率。主要的公式有全概率公式和条件概率。

在随机事件B发生的情况下,求随机事件A发生的概率:P(A|B)=\frac{P(B|A)P(A)}{P(B)}

推导过程如下:

\begin{aligned} & \because P(B|A)=\frac{P(A\bigcap B)}{P(A)}\\ &\therefore P(A\bigcap B)=P(B|A)P(A)\\ &\because P(A|B)=\frac{P(A\bigcap B)}{P(B)}\\ &\therefore P(A|B)=\frac{P(A\bigcap B)}{P(B)}=\frac{​{​{P(B|A)P(A)} }}{P(B)}\\ \end{aligned}

 

贝叶斯定理可以表述下列情形:

x是观测向量,\theta是未知向量,联合密度是p(x,\theta),他们的边际密度分别是p(x), p(\theta),通过观测向量x获得未知参数向量\theta的估计,则  p(\theta|x)=\frac{\pi (\theta)p(x|\theta)}{p(x)}=\frac{\pi (\theta)p(x|\theta)}{\int \pi (\theta)p(x|\theta)d\theta} 。其中,\pi (\theta)\theta的先验分布。

传统估计参数方法,如最大似然估计,在估计参数时只考虑了样本信息;而贝叶斯网络对未知参数向量的估计中,综合了它的先验信息和样本信息

 

贝叶斯方法对未知参数向量估计的特点:

  • 未知参数x看成是随机向量。这是贝叶斯方法与传统参数估计方法的最大区别。
  • 计算后验分布密度,做出对未知参数的推断
  • 根据以往对参数\theta的知识,确定先验分布\pi (\theta )。(这是贝叶斯方法容易引起争议的一部,由此受到经典统计界的攻击)

 

2.3 贝叶斯假设

如果没有任何以往的知识来帮助确定\pi (\theta ),贝叶斯提出可以采用均匀分布作为其分布。但贝叶斯假设在处理无信息先验分布,尤其是未知参数无界的情况时遇到困难。

2.4 经验贝叶斯估计

经验贝叶斯估计:把经典的方法和贝叶斯方法结合在一起,用经典的方法获得样本的边际密度p(x),然后通过p(x)=\int_{-\propto }^{+\propto }\pi (\theta )p(x|\theta )d\theta来确定先验分布\pi (\theta )

 

2.5 有向分离(D-Separation)

有向分离也称为D分离,对应于概率论中的条件独立性,目的是从图的角度寻找结点之间的条件独立性

主要考虑三类特殊的结点连接:

其中,结点X_{k}分别被称为头对尾结点、尾对尾结点和头对头结点。

根据条件独立知识,在顺序连接和发散连接中,若结点X_{k}未知,则结点X_{i}与结点X_{j}相关; 若结点X_{k}已知,则结点X_{i}与结点X_{j}条件独立,即则结点X_{i} X_{j}X_{k}有向分离。

贝叶斯网络N=(G,\Theta )X_{i}X_{j}是G中任意不相邻的两个结点,Z表示连接X_{i}X_{j}路径上的结点集,并且Z不包含X_{i}X_{j}点,l是连接X_{i}X_{j}的任意一条路径。若Z满足至少以下三个条件之一,则称l是关于Z的一条阻断路径,X_{i}X_{j}被Z有向分离desp_{G}(X_{i},Z,X_{j}),又记作X_{i}\amalg X_{j}|Z

  • 在顺序连接中,Z包含l中不同于X_{i}X_{j}的某一头对尾结点
  • 在发散连接中,Z包含l中不同于X_{i}X_{j}的某一尾对尾结点
  • 在收敛连接中,Z包含l中不同于X_{i}X_{j}的某一头对头结点及其子孙结点

结点集之间的有向分离假设A、B和Z是在G中的三个互不相交的结点集,对于任意的结点A_{i}\epsilon A和任意的B_{i}\epsilon B,若A_{i}B_{i}都被Z有向分离,则称成A和B被Z有向分离desp_{G}(A,Z,B),又记作A\amalg B|Z

 

有向分离定理:判断G中结点集X和Y是否被Z有向分离等价于X和Y是否在新的有向无环图G'中无连接路径。G'是根据以下规则修剪G所得:

  • 首先,从G中删除所有不属于X\bigcup Y\bigcup Z的叶结点,重复这一步,直到无满足条件的叶结点存在;
  • 然后,删除从Z中结点输出的所有边。

通过此定理,可以将有向图简化成非连接图,在线性时间内判断是否满足有向分离,从而降低分析的复杂度。

 

小结

对于贝叶斯网络N=(G,\Theta ),及联合概率P(V):

  • 若结构图中X和Y被Z有向分离,根据有向分离定义,对于任意的网络参数\Theta,X和Y必然是关于Z条件独立。条件独立不一定有向分离。

  • 若X和Y不被Z有向分离,则X和Y是否关于Z条件独立取决于网络参数\Theta的选择。

2.6 贝叶斯网络构造步骤

  • 确定与建立网络模型有关的变量及其解释

  • 建立表示条件独立关系的有向无环图

  • 指派局部概率分布p(x_{k}|pa_{k})

以上各步可能需要交叉并反复进行。

 

2.7 贝叶斯网络结构学习

从给定的数据集中学出贝叶斯网络结构,即各结点之间的依赖关系;确定了结构之后才能学习网络参数,即表示各结点之间依赖性的条件概率。

根据训练数据是否存在缺失,网络结构学习可分为两种:完整数据的结构学习,主要有基于搜索评分的方法和基于约束的方法;缺失数据的结构学习,主要有修复数据集的方法和近似计算的方法。(链接)

虽然学习贝叶斯网络结构是NP—难问题,但在搜寻最优结构中可以给定这样几个环节:定义评分函数;寻找最高评价值的搜索最优问题;采用启发式或元启发式搜索方法得到。

 

2.8 贝叶斯网络参数学习(参数估计)

是在给定网络结构的基础上,从训练数据中学习得到结点的条件概率分布表的过程。由于贝叶斯网络主要处理离散数据,因此在参数学习过程中,

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

  • 3
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值