概率图-表示-贝叶斯网络

一、贝叶斯网例子

贝叶斯网是一种经典的概率图模型,它利用有向无环图来刻画属性之间的依赖关系。

首先来看一个的例子,一个学生想要请求教授为其写一封推荐信,推荐信的质量用变量L表示,取值范围为{是,否}。而教授健忘不知道这个学生的名字,所以要查看学生的成绩来确定是否为其写推荐信。学生成绩的取值范围为{A,B,C},分别对应于g1,g2,g3,而考试的成绩和试题的难度还有智商有关系,他们的取值范围都是两个,还有一个SAT成绩作为辅助评判标准。

试题难度D:{d1(难),d0(简单)}

智商高低I:{i1(高智商),i0(低智商)}

成绩G:{A,B,C}

SAT成绩S:{s1(高分),s0(低分)}

推荐信质量L:{l1(是),l0(否)}

直接对上面的信息进行建模,写出他们的联合概率分布表,这个联合概率分布表的大小为2*2*3*2*2=48种,可以发现这个数目巨大。假设有K个变量,每一个变量的取值为N个,则最后联合概率分布表的大小为N^K,数目巨大根本无法进行建模。

这个时候需要对上面的联合概率进行化简,首先想到的就是朴素贝叶斯算法中方法,假设各个特征独立,那么联合概率分布就可以写成独立变量的乘积,p(D,I,G,S,L)=p(D)p(I)p(G)p(S)p(L),这样只需要确定2+2+3+2+2=11个变量就可以了,然而在现实生活中,各个特征独立的假设太强。例如,试题难度越高,取得成绩越高的可能性就越低,这两个变量之间明显不是独立的。所以,这个时候贝叶斯网就出来了。

贝叶斯网利用箭头方向来表示影响关系,如下图所示,试题难度和智商会影响成绩,而成绩的高低会影响推荐信的质量,智商的高低还会影响SAT的分数。这样建模看起来就比较合理。

 

                           

则上面的模型可以表示为:

p(D,I,G,S,L)=p(D)p(I)p(G|D,I)p(S|I)p(L|G)

既一个贝叶斯网可以分解为各个节点的条件概率分布乘积,这个称为贝叶斯网的链式法则。par(Xi)是x的父节点的集合。

                                                   p(X)=\prod_{i}p_{i}(X_{i}|Par(X_{i}))

这样我们需要建模的参数就比较少,同时也符合实际。下面我们来计算一下在试题难度简单,智商高,SAT成绩和考试成绩都高的情况下,拿到推荐信的概率。

p(d^{0},i^{1},g^{1},s^{1},l^{1})=p(d^{0})p(i^{1})p(g^{1}|i^{1},d^{0})p(s^{1}|i^{1})p(l^{1}|g^{1})

                                  =0.6*0.3*0.9*0.8*0.9

                                  =0.11664

那么为什么一个贝叶斯网可以分解成上面的形式呢,这就要设计到条件独立性原理。

二、概率影响的流动性及条件独立

2.1 概率影响流动性的感性认识

为了解释上面的式子,首先要了解概率影响的流动性。

首先,要看看上图,左边表示的是影响,W属于Z表示的是W已经被观测了,W不属于Z表示的是W没有被观测。某一项打√表示的是X,Y相互影响,打×表示X,Y不影响,相互独立。

对于第一种情况,当W没有被观测的时候,X,Y是相互影响的,当W被观测了,X,Y就独立了。以I->G->L为例,当G没有被观测的时候,我们认为一个高智商的学生会在考试中得到A的可能性比较大,进而会得到推荐信。而一旦G被观测了,那么一个学生智商高低和是否得到推荐信就没有关系了,如果G为A,那么这个时候即使智商低,得到推荐信的可能性比较大。

第二种情况和第一种情况类似,这里就不说了。

第三种情况,当W没有被观测的时候,X,Y之间有关系。当W被观测了,X,Y之间就没关系了。以G<-I->S为例,当I没被观测时,比如SAT取得高分,那么认为他智商高的概率大,进而认为Grade取得高分的概率比较大。而一旦I被观测了,SAT和Grade就不相互影响了。比如智商高,SAT分低,那么Grade的分可能高,因为可能SAT考试中没有发挥好。

第四种情况,当W没有被观测的时候,X,Y独立,当W被观测到了,则X,Y有关系,这个和前面的正好相反。以I->G<-I为例,在没有观测到G时,试题难度和智商没有什么关系,而一旦G被观测到了,例如,G高,那么试题难度和智商就有关系了,如果试题男,取得分高的情况下,那我们认为智商大概率下很高。

2.2  条件独立定义

有效迹:对于贝叶斯网络中的一条路径,如X1 \rightleftharpoons... X2和观测变量子集Z,当X1,Xn能相互影响的时候,称路径是有效的。

条件独立:当X1 \rightleftharpoons... X2不是有效迹的时候,X1和Xn条件独立。

d-分离:若图G在给定观测变量子集Z的条件下,节点X和Y之间不存在任何有效迹,则称X和Y在给定Z的时候是d-分离的。记为d-sep_{G}(X,Y|Z)

条件独立:如果概率图G满足d-sep_{G}(X,Y|Z),则称X与Y条件独立。

定理:父节点已知时,该节点和其所有的非后代节点条件独立。

2.3 条件独立性对因为分解的证明

我们把上面的贝叶斯网络分解成如下的形式:

p(D,I,G,S,L)=p(D)p(I)p(G|D,I)p(S|I)p(L|G)

将上面的式子展开成条件概率的形式

p(D,I,G,S,L)=p(I)p(D|I)p(G|I,D)p(L|D,I,G)p(S|L,D,I,G)

对比上面两个式子,要想上面的两个式子成立,则要求:

p(I)=p(D|I)

p(L|G)=p(L|D,I,G)

p(S|I)=p(S|L,D,I,G)

即父节点已知的时候,该节点和其所有的非后代节点条件独立。上面的定理证明完毕。

 

参考资料: 1>机器学习-白板推导-概率图

                    2>Daphne Koller,Nir Fridman著,王飞跃,韩素青译-概率图模型原理技术

                    3>Coursera 课程Probabilistic Graphical Models 

 

概率分布可以回答相关领域的任何问题,但随着变量数目的增 加,全概率分布的联合取值空间却可能变得很大。另外,对所有的原 子事实给出概率,对用户来说也非常困难。 若使用Bayes 规则,就可以利用变量之间的条件独立关系简化计 算过程,大大降低所需要声明的条件概率的数目。我们可以用一个叫 作Bayesian 网的数据结构来表示变量之间的依赖关系,并为全概率分 布给出一个简明的表示。 定义(Bayesian 网):Bayesian 网T 是一个三元组(N,A,P),其 中 1. N 是节点集合 2. A 是有向弧集合,与N 组成有限非循环G =(N,A) 3. P {p(V | ) :V N} v    ,其中 v  代表节点V 的父亲节点集合 Bayesian 网是一个有向非循环: (1) 网中节点与知识领域的随机变量一一对应(下文中不区分节 点与变量); (2)网中的有向弧表示变量间的因果关系,从节点X 到节点Y 有 向弧的直观含义是X 对Y 有直接的因果影响;影响的强度或者说不确 定性由条件概率表示; (3)每个节点有一个条件概率表,定量描述其所有父亲节点对于 该节点的作用效果。 -2- (4)由领域专家给定网络结构和条件概率表。 )由领域专家给定网络结构和条件概率表。 )由领域专家给定网络结构和条件概率表。 )由领域专家给定网络结构和条件概率表。 )由领域专家给定网络结构和条件概率表。 )由领域专家给定网络结构和条件概率表。 )由领域专家给定网络结构和条件概率表。 )由领域专家给定网络结构和条件概率表。 )由领域专家给定网络结构和条件概率表。 对领域专家来说,决定在特中存哪些条件独立联系通常是 对领域专家来说,决定在特中存哪些条件独立联系通常是 对领域专家来说,决定在特中存哪些条件独立联系通常是 对领域专家来说,决定在特中存哪些条件独立联系通常是 对领域专家来说,决定在特中存哪些条件独立联系通常是 对领域专家来说,决定在特中存哪些条件独立联系通常是 对领域专家来说,决定在特中存哪些条件独立联系通常是 对领域专家来说,决定在特中存哪些条件独立联系通常是 对领域专家来说,决定在特中存哪些条件独立联系通常是 对领域专家来说,决定在特中存哪些条件独立联系通常是 对领域专家来说,决定在特中存哪些条件独立联系通常是 对领域专家来说,决定在特中存哪些条件独立联系通常是 对领域专家来说,决定在特中存哪些条件独立联系通常是 对领域专家来说,决定在特中存哪些条件独立联系通常是 较容易的 较容易的 较容易的 (给定网络结构相对容易 给定网络结构相对容易 给定网络结构相对容易 给定网络结构相对容易 给定网络结构相对容易 )─ 事实上,要远比际声明出这 事实上,要远比际声明出这 事实上,要远比际声明出这 事实上,要远比际声明出这 事实上,要远比际声明出这 事实上,要远比际声明出这 事实上,要远比际声明出这 事实上,要远比际声明出这 事实上,要远比际声明出这 些概率本身容易得多 些概率本身容易得多 些概率本身容易得多 些概率本身容易得多 些概率本身容易得多 (给定准确的条件概率相对 给定准确的条件概率相对 给定准确的条件概率相对 给定准确的条件概率相对 给定准确的条件概率相对 给定准确的条件概率相对 困难) 。一旦 。一旦 。一旦 BayesianBayesianBayesianBayesianBayesian Bayesian网的拓扑结构给定, 则只需对那些直接相互依赖节点出条件概率网的拓扑结构给定, 则只需对那些直接相互依赖节点出条件概率网的拓扑结构给定, 则只需对那些直接相互依赖节点出条件概率网的拓扑结构给定, 则只需对那些直接相互依赖节点出条件概率网的拓扑结构给定, 则只需对那些直接相互依赖节点出条件概率网的拓扑结构给定, 则只需对那些直接相互依赖节点出条件概率网的拓扑结构给定, 则只需对那些直接相互依赖节点出条件概率网的拓扑结构给定, 则只需对那些直接相互依赖节点出条件概率网的拓扑结构给定, 则只需对那些直接相互依赖节点出条件概率网的拓扑结构给定, 则只需对那些直接相互依赖节点出条件概率网的拓扑结构给定, 则只需对那些直接相互依赖节点出条件概率
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值