概率图模型

概率图

在这里插入图片描述
在概率图模型中,数据(样本)由公式 G=(V,E) 建模表示:

  • V 表示节点,即随机变量(放在此处的,可以是一个token或者一个label),具体地,用 在这里插入图片描述为随机变量建模,注意 Y 现在是代表了一批随机变量(想象对应一条sequence,包含了很多的token), P(Y) 为这些随机变量的分布;
  • E 表示边,即概率依赖关系。具体咋理解,还是要在后面结合HMM或CRF的graph具体解释。

有向图 vs. 无向图

贝叶斯网络(信念网络)都是有向的,马尔科夫网络无向。所以,贝叶斯网络适合为有单向依赖的数据建模,马尔科夫网络适合实体之间互相依赖的建模。具体地,他们的核心差异表现在如何求 P=(Y) ,即怎么表示在这里插入图片描述这个的联合概率。

有向图

在这里插入图片描述
如上图所示的这个贝叶斯网络所有节点的联合概率分布就是
在这里插入图片描述
①对于节点X1,没有节点连接到它,就单独放;②对于节点X2,只有X1连接到它,那就是第二项;③对于X3,只有X2连到它,那就是第三项;…;⑥对于X6,有两个直接连接到它的“因”节点,表达出来就是第六项;⑦对于X7,只有X6连到它,那就是最后一项。最后都乘起来就是联合概率了

在这里插入图片描述

条件局部独立性

概念:任意节点与其非后代节点都条件独立于其父节点。

从三中拓扑结构来证明:

(1)串行连接或链
在这里插入图片描述
其联合分布为:

在这里插入图片描述
证明如下:
在这里插入图片描述
(2)发散连接
在这里插入图片描述
其联合分布为:
在这里插入图片描述
根据“条件局部独立性”可以得出这样一个结论:给定节点k时,节点 j 和其非后代节点 i 关于节点 j 的父节点 k 条件独立。

在这里插入图片描述
(3)收敛连接
在这里插入图片描述
其联合分布为:

在这里插入图片描述
根据“条件局部独立性”可以得出这样一个结论:节点 i 和节点 j 是先验独立的

结论

通过上面三个结构和证明可以得到这样一个结论(个人总结,对错可在评论区指出)

  • ①对于串行连接和发散连接,在观察到中心变量k 时,节点 i 和节点 j 条件独立
  • ②对于收敛连接,在没有观察到中心变量k时,节点 i 和节点 j ,先验独立,但是条件独立不确定。
d-划分

假设A、B、C是任意无交集的结点的集合,考虑从A中任意结点到B中任意结点所有可能的路径(此路径忽视箭头方向),如果满足下列任何一种条件:

①路径上的箭头从头到尾(串行连接)或者尾到尾(发散连接)的方式交汇于一个结点,且此结点在集合C中

②箭头从头到头(收敛连接)的方式交汇于一点,且这个结点和它所有的后继都不在集合C中

就说所有的路径被“阻隔”,即C把A从B中d-划分。
在这里插入图片描述
左图:交汇节点是e和f,对于aec和bfec串行连接,中间节点e没有被观察到,说明不独立。而aef虽然属于收敛连接,且独立,但是e的后继c被观察到了。对于f节点,发散连接,f 没被观察到,不独立。所以从a到b的路径并未被节点f阻隔。
右图:f节点是发散连接且被观察到了,条件独立,因而从a到b的路径被节点f阻隔。对于e节点,收敛连接,未被观察到,独立,且其后继节点c不被观察的变量内,所以路径也被e节点阻隔。

朴素贝叶斯图结构

朴素贝叶斯(naive Bayes)模型是一种分类方法,可以用图结构表示,使用条件独立性假设来简化模型结构。

假设观测变量是D维的,即

在这里插入图片描述

目标:将x的观测值分配到K个类别中的一个。

生成模型定义:引入类别标签上的多项式先验概率分布P(z|μ),其中μ的第k个元素表示类别Ck的先验概率,再引入观测向量x的条件概率分布P(x|z)。举个例子,给你一堆不同颜色的带有编号的球,每种编号的数目不同,而且在同一种颜色中,可能某个编号占据多数,先验分布P(z|μ)意思就是随便拿一个球,不观察颜色的时候瞎猜,猜对的概率是多少,其实也就是(某个编号的球的个数/球总数),而观测向量x就是颜色,条件概率分布P(x|z)意思就看了颜色以后,你心里有个谱,知道这个颜色的那个编号多,然后猜对的概率。
关键:朴素贝叶斯的关键假设就是,以类别z为条件,输入变量x的分布是独立的,原因看图。
在这里插入图片描述
发散连接,观测到z的时候,每个变量条件独立。但是无法对z求和或积分(意思就是z不是可观测变量了),那么z就不在阻隔x之间了,它们就不条件独立了。这就告诉我们,通常边缘概率密度P(x)是不可以关于x的元素进行分解。意思应该是,只能计算联合概率密度,即P(x1,x2,…,xD)但是无法拆开计算P(x1)、P(x2)…

全局马尔科夫独立性

几个概念:

  • ① 在贝叶斯网络中,如果两个节点能够通过一条路径产生有效的相互影响(也就是说两个节点不独立),那么这条路径就称为有效路径(有效迹)
  • ② 如果给定观察变量Z的时候,两个节点相互独立(通过三种拓扑结构判断独立与否),就称为这就是所谓的全局独立性

判断有效路径小技巧:

  • 对于串行连接和发散连接,只要两个节点之间可通过观测变量连接起来,那么这条路径就不是有效路径。
  • 对于收敛连接,如果中间节点属于观测变量,而且路径上的其他节点都不属于观测变量,那么它就是有效路径。
马尔科夫随机毯(Markov blanket)

考虑联合概率分布,考虑第i个结点以其它所有节点为条件的条件概率分布

在这里插入图片描述
式子的分子分母中,所有与xi无关的因子都能提出来消去,唯一剩余的因子是第i个结点自身的条件概率以及以xi为父节点的节点xk,即第k个结点有两个父节点,其中一个父节点就是i,而此节点的条件概率分布的条件就是两个父节点。这样的由父节点、子节点、同父节点构成的节点集合称为马尔科夫毯。如下图所示:
在这里插入图片描述
此图就是节点xi的马尔科夫毯,由父节点、子节点、同父节点的集合构成。特点是以图中所有剩余节点为条件,xi的条件概率分布值依赖于马尔科夫毯中的变量。

马尔科夫毯是节点xi与图中剩余部分隔开的最小节点的集合,需要注意的是只有子节点和父节点是不够的,因为子节点的观测不会阻隔某个节点到同父节点的路径,因而也需要观测同父节点,按照上面的三个拓扑结构分析此图就能清晰。

解释消除(explaining away)

概念:原本相互独立的多个原因在给定观察结果时,可能不再相互独立,而是变得相互依赖、相互影响。
在这里插入图片描述
B代表电池(battery)节点,1代表电池有电,0代表电池没电

F代表燃料(fuel)节点,1代表油箱还有有,0代表油箱没油了

G代表油表指针(ggauge)节点,1代表指针说油箱还有油,0代表指针说油箱没油了

这个有向图这样画的原因是根据常识:油表指针是由电量和实际燃料量决定的。也就是说电量和燃料的变动情况是油表指针变动情况的“因”,指针是“果”

这里要分析的是:①直接猜测F=0(没油)的概率,② 观察油表,猜测油箱没油的概率,③ 电池没电时候观察油表,猜测油箱没油的概率

形象点用条件概率表达,依次为:
在这里插入图片描述
先说一下已知条件:
在这里插入图片描述
根据贝叶斯网络结构,得到联合概率分布

在这里插入图片描述
然后就能计算得到知道油表指针空(G=0)的时候,油箱真的空(F=0)的概率为
在这里插入图片描述
对于分子
在这里插入图片描述
对于分母
在这里插入图片描述
注意求分母的这个式子中,第二个等号变换到第二个等号说明B和F是独立的,而独立原因在于我们并不知道收敛连接中心节点G的状态
带入原式就能得到
在这里插入图片描述
再来计算一下观察到油表和电池都为0的时候,没油的概率
在这里插入图片描述
对比着三个计算油箱状态的方法:①瞎猜②看油表③看油表和电池。发现看油表猜油箱的油比较靠谱,但是当我们发现油表的电池快没电了,那么油表的可靠度就在下降。

这个例子就是所谓的解释消除(explaining away),本来相互独立的多个原因在给定观察结果时,可能不再独立,而是相互依赖,相互影响。根据收敛连接,没给定油表观察结果的时候,电池和燃料是相互独立(先验独立)的,但是给定油表的观察结果时,它俩又不独立了。

概率无向图模型

在这里插入图片描述
概率无向图模型(undirect graphical model)、马尔科夫随机场(Markov Random Filed,MRF)、马尔科夫网络(Markov Network,MN)

条件独立性质

考虑连接集合A和B的节点的所有可能路径,如果所有路径都通过集合C中一个或者多个节点,那么所有这样的路径都被“阻隔”,条件独立性质成立;如果存在至少一条未被阻隔的路径,那么条件独立性质就未必成立,专业点就是说:存在至少某些对应于图的概率分布不满足条件独立性质。
另一种检测方法是,将图中属于集合C的节点以及与这些节点相连的连接线全部删除,然后再看有没有从A到B的路径。如果没有,那么条件独立一定成立。
无向图的马尔科夫毯比较简单,节点只依赖与相邻节点,而条件独立于任何其他的节点。因为相邻节点都有线连接,如果把相邻节点当做C,那么它连接到其它节点的路径都要经过C,也就是对于除了相邻节点C以外的其它节点条件独立。
在这里插入图片描述
图中集合A到集合B的所有路径都通过集合C中的结点,所以图所描述的任意概率分布,都是以C为条件,A与B都条件独立。

分解性质

利用条件独立性质去分解联合分布,如果第i和第j个结点之间不存在连接,那么给定图中其它结点,这两个结点一定条件独立,可以用下式表示出来
在这里插入图片描述
反斜杠代表除了大括号结点之外的结点。联合概率分布的分解一定要让xi和xj不出现在同一个因子中,进而让属于这个图的所有可能的概率分布都满足条件独立性。

在了解联合概率分布的写法之前先看看两个概念:
团块:图结点的子集,每一个子集的每对节点之间都有连接(跨度一个或者多个连接起来的不算)。团块中的节点集合是全连接的。

最大团块:不可能将图中任何一个其它节点包含到团块中而不破坏团块的性质。
在这里插入图片描述
图中有两个节点的团有五个
在这里插入图片描述
两个最大团块
在这里插入图片描述
将团块记为C,团块中的变量为x_c,联合概率分布分解的因子定义为最大团块中变量的函数。简单点就是可以写成图的最大团块的势函数(potential function)乘积的形式:

在这里插入图片描述
这里的C就是无向图中所有的极大团,是非负函数,称为极大团因子或者势函数,Z是归一化常数,称为配分函数(partition function)
在这里插入图片描述
在这里插入图片描述
此图中包含三个极大团
在这里插入图片描述
那么此马尔科夫网络的联合概率分布可以写为:
在这里插入图片描述
再说一下配分函数怎么拆开加和形式的, 其实就是每个节点所在团块的势函数乘积的和, 具体表达式如下:
在这里插入图片描述
在这里插入图片描述
右边总共有五项,分别表示五个节点所在的极大团的块势函数,比如节点x1 在团块C1 中,节点x2 在团块C2,节点x3 在团块C1、C2、C3中…,最后加起来就是整个模型的势函数了。

势函数与配分函数

势函数的选择并没有具体的概率含义,但是在有向图中,每一个因子表示对应变量以它的父节点为条件的概率分布。势函数的通用性产生了一个结果就是它们的乘积没有被归一化,所以就引入了一个显式的归一化因子,即配分函数。为啥要被归一化?对比有向图中,分解后的每个因子作为条件概率分布都被归一化了(加和为1),因此俩和概率分布会自动被归一化,无向图用的是势函数,所以只能显式加入配分函数进行归一化了。

归一化常数(配分函数)的存在是无向图的主要缺点。因为归一化项的计算涉及到对K^M个状态求和,在最坏情况下,计算量是模型大小的指数形式。对于参数学习,势函数是必须的,用于控制势函数的任意参数的函数。对于局部条件概率的计算不是必须的,因为条件概率计算的是两个边缘概率的壁纸,可以计算未归一化的联合概率分布,然后在计算的最后阶段显式地归一化边缘概率。如果边缘概率涉及到少量的变量,那么归一化稀疏就可以计算。

由于势函数是严格为正,所以可以将势函数表示为指数形式:

在这里插入图片描述
其中E就被称为能量函数(energy function),指数表示被称为玻尔兹曼分布(Boltzmann distribution)。联合概率分布被定义为势函数的乘积,因此总能量可通过将每个最大团块的能量相加的方法得到。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值