概率图模型-原理与技术 第三章 贝叶斯网表示 学习笔记(一)

概率图模型-原理与技术 第三章 贝叶斯网表示 学习笔记(一)

概率图模型-原理与技术 总目录

http://blog.csdn.net/icefire_tyh/article/details/54026071#t3


    本章主要分二点,一是利用随机变量的独立性来减少参数数量,二是介绍一种有向无圈图模型来表示随机变量间的关系。

1 独立性性质的利用

  下面的讨论以一种简单的方式,每个随机变量都是二值得

1.1 随机变量的独立性

  • 随机变量联合分布参数的数量与独立参数的数量
      如果使用联合分布 P(X1,X2,.....,Xn) 的方式来参数化, 对所有二值随机变量组合一共需要 2n 个参数,由于所有参数的和为1,知道其中 2n1 个就能知道最后一个,所以独立参数的数量是 2n1

  • 基于独立性更紧凑的参数表示
      考虑一种极端的情况,所有变量都两两相互独立,于是有 P(X1,X2,.....,Xn)=iP(Xi) ,对于每一个二值随机变量 Xi ,仅需要一个独立参数就能表示[仅表示 αi=P(Xi=0) ,则 P(Xi=1) )可以用 1αi 表示],一共只需要n个参数就能表示出最终的联合分布,使的需要的参数数量大大减少。
    更一般的情况下,参数数量介于两者之间,参数之间有越强的独立性,则需要的数量越少。

1.2 条件参数化方法

  • 先验分布与条件概率分布
      先验分布:根据专家知识或者多次重复实验统计得出来的概率分布,比如投掷一枚均匀的硬币,正面朝上的概率是 12 ;又或者是书中的例子,多年统计得到一所学校的学生中,高智商与低智商学生的比例大概是3:7,即一个学生是高智商的概率是 310
      条件概率分布:随机变量在其他不相交随机变量已知的情况下对应的概率分布,就是条件概率分布。如果此时的概率分布与其边缘分布是相同的,这两组随机变量相互独立。
      参考书中的学生智商与SAT例子,见下表。
先验概率分布条件概率分布联合概率分布
学生智商SAT成绩低|学生智商SAT成绩高|学生智商SAT成绩低SAT成绩高
智商低0.70.950.050.6650.035
智商高0.30.20.80.060.24

  由上表可知,对于一个学生SAT打高分的概率是0.035+0.24=0.275,打低分的概率是0.665+0.06=0.725。这是SAT分数的边缘分布。
  然而在已知学生智商高时,此时这个学生SAT打高分的概率成了0.8,可以看出智商高的学生更容易在SAT考试中打高分。即学生的智商高低影响了学生的SAT分数,而且可以看出这个影响非常大。

  • 基于条件概率分布的参数表示
      从上面的例子看以看出,最少需要3个参数就能完整填出整张表,比如 P(=0.7),P(SAT|=0.95),P(SAT|=0.2) ,完整的联合分布也只需要 221=3 个参数。
    再考虑一组6个二值随机变量 X1,X2...X6 ,写成 X1,X2,X3 X4,X5,X6 的条件分布形式,即:
    P(X1,X2,X3,X4,X5,X6)=P(X4,X5,X6)P(X1,X2,X3|X4,X5,X6)

    对于左边,有 261 个独立参数
      对于右边, P(X4,X5,X6) 的联合分布有 23 个参数,其中独立参数 231 个。对于每组 P(X4,X5,X6) P(X1,X2,X3|X4,X5,X6) 需要独立参数 231 个。
    所以独立参数一共 231+23(231)=261 ,可以看出,条件概率分布虽然使得某些信息更加直观,但是并不会减少独立参数的个数。

1.3 朴素贝叶斯模型

  • 随机变量的条件独立性
      从上一章的内容可以知道,现实中很多事件之间并不具备独立性,更多的是条件独立性,随机变量也是一样。

    这里写图片描述

      仅考虑上图中的(b)图,可以看出学生的学科成绩与SAT成绩是和学生的智力是有关系的,但是学科成绩和SAT成绩独立吗?从常识来看两者肯定是有关系的,因为一个学生SAT成绩好,可以认为这个学生智商高的可能性越高,那么从而可以认为他的学科成绩也越高。由此可知学科成绩与SAT成绩是不独立的。

      由于学科成绩与SAT成绩都被学生智力高低影响,加入已知了学生的智力很高,那么这位学生的学科成绩和SAT成绩将不会互相影响,即 P(G|I=1)=P(G|S,I=1) ,学科成绩与SAT成绩高低在已知学生智力时条件独立。

  • 朴素贝叶斯假设
      上述模型更一般化就是朴素贝叶斯模型,,朴素贝叶斯模型基于朴素贝叶斯假设,即在给定样本的分类情况下,样本的所有特征条件独立。

    这里写图片描述

根据上图的独立性假设,可以得出联合分布公式:

P(C,X1,X2...Xn)=P(C)iP(Xi|C)

  对于先验概率 P(C) ,需要 1 个独立参数,而对于每组P(Xi|C),需要两个独立参数,所以一共需要 2n+1 个独立参数,可见条件独立性也能显著降低独立参数数量。

然而该模型的强独立性假设也是不常见的,直接使用会导致模型的准确度降低。

2 贝叶斯网

  贝叶斯网与朴素贝叶斯一样通过条件独立性来降低模型独立参数的数量,但是贝叶斯网不必限制分布必须满足朴素贝叶斯所隐含的强独立性假设。

2.1 贝叶斯网的基本独立性

  • 局部概率模型
    如下图所示,贝叶斯网用有向图表示,其中节点表示随机变量,而边则表示一个变量对另一个变量的直接影响。

    这里写图片描述

      网络中每一个节点都关联着一个条件分布:没有父节点的节点,比如D,I,对应的就是其边缘分布;有父节点的节点,如G,S,L,有着在已知父节点取值情况下的条件分布。

      由此对于联合空间任何一个状态,有:

    P(I,D,G,S,L)=P(I)P(D)P(G|I,D)P(S|I)P(L|G)

      上式是贝叶斯网的链式法则的一个例子。

  • 贝叶斯网语义
      ”节点只直接依赖其父节点“是贝叶斯语义的核心。下面给出形式化的定义:
      贝叶斯网络 G 包含的节点对应随机变量X1,X2,...Xn的一个有向无圈图。
       PaGXi :表示节点 Xi 在G中的父节点集合
       NDGXi :表示节点 Xi 在G中的非后代节点集合
      那么对每个变量 Xi ,有:

    P(XiNDGXi|PaGXi)

      即给定某节点的父节点,那么该节点与其它非后代节点独立。

      那么对于上图的学生例子,有 P(DI),P(LD,I,S|G),P(SD,G,L|I) 等等。

2.2 图与分布

  如上图,贝叶斯网G可以看成是一系列独立性断言,另一方面,每个节点对应的条件概率分布通过链式法则最终生成的联合分布P也是一个独立性断言集合,它们俩对应的条件独立性其实是等价的。
用一系列公式来表述,即假设:

I 定义为独立性断言集合
I(P)定义为分布 P 上的独立性断言集合
I(G)定义为贝叶斯网 G 上的独立性断言集合
那么有I(P)=I(G)

  • Imap
      推广到更一般的情况,对于任何一个概率分布 P 以及图G,如果 I(G)I(P) ,那么称 G P的一个 Imap ,即图G所包含的独立性集合是分布P所包含的独立性集合的一个子集。

      参考书上的例子,定义X,Y是两个随机变量,概率分布如下:

X Y P1(X,Y) P2(X,Y)
X0 Y0 0.080.4
X0 Y1 0.320.3
X1 Y0 0.120.2
X1 Y1 0.480.1

  在 P1 中, X,Y 相互独立,于是 I(P1)={(XY)} ,而 P2 不包含任何独立性,即 I(P2)=

  考虑两种不同的图结构, G1 代表的图是X,Y之间没有连线,两个孤立的点。 G2 表示有一条节点X到节点Y的有向边。
  
  由贝叶斯网的独立性可以知道, I(G1)={(XY)} I(G2)=

这里写图片描述

  于是可以得出:
   I(G1)I(G2) 都是 I(P1) 的子集,所以 G1,G2 P1 的一个 Imap
   I(G2) I(P2) 的子集,所以 G2 P2 的一个 Imap ,这时 G1 不是 P2 Imap

  • Imap 和因子分解

      因子分解:设G是定义在随机变量 X1,X2....Xn 上的一个贝叶斯网,加入P可以表示为如下乘积:

    P(X1,...,Xn)=iP(Xi|PaGXi)

      那么称分布P是关于图G的一个因子分解。

       Imap 和因子分解联系了图模型与概率分布,两者的关系是相互的, Imap 和因子分解都能表示分布P中包含了图G中的所有独立性假设,它们用了不同的方式表达了相同的意思。
      所以有:
      如果G是P的一个 Imap ,那么P根据G因子分解。
      如果P根据G因子分解,那么G是P的一个 Imap [证明参考习题3.9]

  • 2
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Statistical learning refers to a set of tools for modeling and understanding complex datasets. It is a recently developed area in statistics and blends with parallel developments in computer science and, in particular, machine learning. The field encompasses many methods such as the lasso and sparse regression, classification and regression trees, and boosting and support vector machines. With the explosion of “Big Data” problems, statistical learning has be- come a very hot field in many scientific areas as well as marketing, finance, and other business disciplines. People with statistical learning skills are in high demand. One of the first books in this area—The Elements of Statistical Learning (ESL) (Hastie, Tibshirani, and Friedman)—was published in 2001, with a second edition in 2009. ESL has become a popular text not only in statis- tics but also in related fields. One of the reasons for ESL’s popularity is its relatively accessible style. But ESL is intended for individuals with ad- vanced training in the mathematical sciences. An Introduction to Statistical Learning (ISL) arose from the perceived need for a broader and less tech- nical treatment of these topics. In this new book, we cover many of the same topics as ESL, but we concentrate more on the applications of the methods and less on the mathematical details. We have created labs illus- trating how to implement each of the statistical learning methods using the popular statistical software package R . These labs provide the reader with valuable hands-on experience.
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值