贝叶斯网络2

转载:http://www.cnblogs.com/ironstark/p/5087081.html

机器学习 —— 概率图模型(贝叶斯网络)

概率图模型(PGM)是一种对现实情况进行描述的模型。
其核心是条件概率,本质上是利用先验知识,确立一个随机变量之间的关联约束关系,最终达成方便求取条件概率的目的。

1.从现象出发—这个世界都是随机变量

  这个世界都是随机变量。

  第一,世界是未知的,是有多种可能性的。

  第二,世界上一切都是相互联系的。

  第三,随机变量是一种映射,把观测到的样本映射成数值的过程叫做随机变量。

  上述三条原则给了我们以量化描述世界的手段,我们可以借此把一个抽象的问题变成一个数学问题。并且借助数学手段,发现问题,解决问题。世界上一切都是未知的,都是随机变量。明天会有多少婴儿降生武汉是随机变量,明天出生婴儿的基因也是随机变量,这些孩子智商高低是随机变量,高考分数是随机变量,月薪几何是随机变量。但是这些随机变量之间完全无关么?男孩,智商高,高考低分,月薪高的概率又有多少?显然,随机变量每增多一个,样本空间就会以指数形式爆表上涨。我们要如何快速的计算一组给定随机变量观察值的概率呢?概率图给出了答案。

  

2.概率图—自带智能的模型

  其实在看CRF的时候我就常常在想,基于CRF的词性分割使用了词相邻的信息;基于边缘检测的图像处理使用了像素的相邻信息;相邻信息够么?仅仅考虑相邻像素所带来的信息足够将一个观察(句子或图像)恢复出其本意么?没错,最丰富的关系一定处于相邻信息中,比如图像的边缘对分割的共线绝对不可磨灭,HMM词性分割也效果不错…….但是如果把不相邻的信息引入判断会怎样?在我苦思冥想如何引入不相邻信息的时候Deep Learning 和 CNN凭空出现,不得不承认设计这套东西的人极度聪明,利用下采样建立较远像素的联系,利用卷积将之前产生的效果累加到目前时刻上(卷积的本质是堆砌+变质)。这样就把不相邻的信息给使用上了。但是这样是不是唯一的方法呢?显然不是,还有一种不那么自动,却 not intractable方法,叫做PGM。

  还是从快速计算条件概率来谈PGM。首先是representation,概率图的表达是一张。。。图。。。图当然会有节点,会有边。节点则为随机变量(一切都是随机变量),边则为依赖关系(现在只谈有向图)。一张典型的概率图——贝叶斯网络如下所示:

2.1 相关性

  对于一副给定的图,每个节点都代表一个随机变量,节点与节点之间通过箭头相连。似乎这在节点与节点之间形成了“流”。那么节点的流之间是否会和随机变量的相关性产生联系?答案是肯定的。考虑几种典型的流:

  显然直观的看来,如果x与y直接相连,那么x,y必然是相关的,给出了x的信息则会影响我们对y的判断。当x与y间接相连时,若x,y呈链状关系,那么影响肯定会传递下去,如果x,y不呈链状关系,有共同原因时,则相关;共同发生作用时,则不相关。

  这里称             x->W<-y       为 V 结构

  一般情况下,相关性的传递是无法通过V结构的。

  但是如果是条件概率的情况下,相关性的传递则表现出完全不同的性质。W 是观测值,如果节点中有随机变量被观测了,那么相关性的连接则会全部取反。也就是说,原本通过W相关的两个变量,在W被观测的情况下,相关性被分离了。也叫做d-separated.记作:d-sepG(X, Y | Z)

  上图中,当且仅当,G被观测且没有其他变化的情况下,S会与D相关。

2.2 因式分解

  由上述分析可知,当给定某些观测时,原本相关的随机变量可以被分离

  由此我们得出以下定理:

  考虑P(D,I,G,L,S)应该怎么计算?如果没有任何先验信息,那么应该是按照条件概率公式:

  P(D,I,G,L,S) = P(D)*P(I|D)*P(G|I,D)*P(L|I,D,G)*P(S|D,I,G,L);

  上式的最后一项,光是对于P(S|D,I,G,L)就需要考虑DIGL所有的可能,并且每增加一个随机变量,计算的复杂程度就会上升一个档次。使用贝叶斯链式法则,那么上式就可以简化成以下形式:

 

  从概率图的角度上来讲,其表达了在给定父节点的情况下,任意一个节点都是与其非子节点,都是d分离的。

  从概率的角度上来讲,任意一个随机变量,在给定父随机变量的情况下,和其非子随机变量,都是d分离的。

  

  

  或者再通俗一点,一个聪明人,在一场很难的考试里拿了高分,却得到了一封很烂的推荐信,同时他SAT考试却是高分的概率是多少?

  我们再隐藏一些细节,一个人推荐信很烂,他SAT高分的概率是多少?或者,一个人SAT低分,却手握牛推的概率是多少?

  如果不考虑随机变量之间的依赖关系,上述内容是很难计算的。但是如果有一个构建好的概率图,上面的问题则可以转化为条件概率问题。

  通过观察实验,我们可以得到一系列的条件概率,通过此条件概率,以及贝叶斯条件概率链式法则,则可求的我们想要的那一组随机变量的概率。

  OK,玩具例子结束了,接下来我们来一点真的。如何通过某人血型(A B AB O)及其父母血型推测其基因型(AAAO AB BB BO ….),首先,我们可以建立一张概率图,所有的血型B,基因型G,都是随机变量(节点)。

  

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
全概率分布可以回答相关领域的任何问题,但随着变量数目的增 加,全概率分布的联合取值空间却可能变得很大。另外,对所有的原 子事实给出概率,对用户来说也非常困难。 若使用Bayes 规则,就可以利用变量之间的条件独立关系简化计 算过程,大大降低所需要声明的条件概率的数目。我们可以用一个叫 作Bayesian 网的数据结构来表示变量之间的依赖关系,并为全概率分 布给出一个简明的表示。 定义(Bayesian 网):Bayesian 网T 是一个三元组(N,A,P),其 1. N 是节点集合 2. A 是有向弧集合,与N 组成有限非循环图G =(N,A) 3. P {p(V | ) :V N} v    ,其 v  代表节点V 的父亲节点集合 Bayesian 网是一个有向非循环图: (1) 网节点与知识领域的随机变量一一对应(下文不区分节 点与变量); (2)网的有向弧表示变量间的因果关系,从节点X 到节点Y 有 向弧的直观含义是X 对Y 有直接的因果影响;影响的强度或者说不确 定性由条件概率表示; (3)每个节点有一个条件概率表,定量描述其所有父亲节点对于 该节点的作用效果。 -2- (4)由领域专家给定网络结构和条件概率表。 )由领域专家给定网络结构和条件概率表。 )由领域专家给定网络结构和条件概率表。 )由领域专家给定网络结构和条件概率表。 )由领域专家给定网络结构和条件概率表。 )由领域专家给定网络结构和条件概率表。 )由领域专家给定网络结构和条件概率表。 )由领域专家给定网络结构和条件概率表。 )由领域专家给定网络结构和条件概率表。 对领域专家来说,决定在特存哪些条件独立联系通常是 对领域专家来说,决定在特存哪些条件独立联系通常是 对领域专家来说,决定在特存哪些条件独立联系通常是 对领域专家来说,决定在特存哪些条件独立联系通常是 对领域专家来说,决定在特存哪些条件独立联系通常是 对领域专家来说,决定在特存哪些条件独立联系通常是 对领域专家来说,决定在特存哪些条件独立联系通常是 对领域专家来说,决定在特存哪些条件独立联系通常是 对领域专家来说,决定在特存哪些条件独立联系通常是 对领域专家来说,决定在特存哪些条件独立联系通常是 对领域专家来说,决定在特存哪些条件独立联系通常是 对领域专家来说,决定在特存哪些条件独立联系通常是 对领域专家来说,决定在特存哪些条件独立联系通常是 对领域专家来说,决定在特存哪些条件独立联系通常是 较容易的 较容易的 较容易的 (给定网络结构相对容易 给定网络结构相对容易 给定网络结构相对容易 给定网络结构相对容易 给定网络结构相对容易 )─ 事实上,要远比际声明出这 事实上,要远比际声明出这 事实上,要远比际声明出这 事实上,要远比际声明出这 事实上,要远比际声明出这 事实上,要远比际声明出这 事实上,要远比际声明出这 事实上,要远比际声明出这 事实上,要远比际声明出这 些概率本身容易得多 些概率本身容易得多 些概率本身容易得多 些概率本身容易得多 些概率本身容易得多 (给定准确的条件概率相对 给定准确的条件概率相对 给定准确的条件概率相对 给定准确的条件概率相对 给定准确的条件概率相对 给定准确的条件概率相对 困难) 。一旦 。一旦 。一旦 BayesianBayesianBayesianBayesianBayesian Bayesian网的拓扑结构给定, 则只需对那些直接相互依赖节点条件概率网的拓扑结构给定, 则只需对那些直接相互依赖节点条件概率网的拓扑结构给定, 则只需对那些直接相互依赖节点条件概率网的拓扑结构给定, 则只需对那些直接相互依赖节点条件概率网的拓扑结构给定, 则只需对那些直接相互依赖节点条件概率网的拓扑结构给定, 则只需对那些直接相互依赖节点条件概率网的拓扑结构给定, 则只需对那些直接相互依赖节点条件概率网的拓扑结构给定, 则只需对那些直接相互依赖节点条件概率网的拓扑结构给定, 则只需对那些直接相互依赖节点条件概率网的拓扑结构给定, 则只需对那些直接相互依赖节点条件概率网的拓扑结构给定, 则只需对那些直接相互依赖节点条件概率

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值