概率图模型-原理与技术 第三章 贝叶斯网表示 学习笔记(一)
概率图模型-原理与技术 总目录
http://blog.csdn.net/icefire_tyh/article/details/54026071#t3
本章主要分二点,一是利用随机变量的独立性来减少参数数量,二是介绍一种有向无圈图模型来表示随机变量间的关系。
1 独立性性质的利用
下面的讨论以一种简单的方式,每个随机变量都是二值得
1.1 随机变量的独立性
随机变量联合分布参数的数量与独立参数的数量
如果使用联合分布 P(X1,X2,.....,Xn) 的方式来参数化, 对所有二值随机变量组合一共需要 2n 个参数,由于所有参数的和为1,知道其中 2n−1 个就能知道最后一个,所以独立参数的数量是 2n−1基于独立性更紧凑的参数表示
考虑一种极端的情况,所有变量都两两相互独立,于是有 P(X1,X2,.....,Xn)=∏iP(Xi) ,对于每一个二值随机变量 Xi ,仅需要一个独立参数就能表示[仅表示 αi=P(Xi=0) ,则 P(Xi=1) )可以用 1−αi 表示],一共只需要n个参数就能表示出最终的联合分布,使的需要的参数数量大大减少。
更一般的情况下,参数数量介于两者之间,参数之间有越强的独立性,则需要的数量越少。
1.2 条件参数化方法
- 先验分布与条件概率分布
先验分布:根据专家知识或者多次重复实验统计得出来的概率分布,比如投掷一枚均匀的硬币,正面朝上的概率是 12 ;又或者是书中的例子,多年统计得到一所学校的学生中,高智商与低智商学生的比例大概是3:7,即一个学生是高智商的概率是 310 。
条件概率分布:随机变量在其他不相交随机变量已知的情况下对应的概率分布,就是条件概率分布。如果此时的概率分布与其边缘分布是相同的,这两组随机变量相互独立。
参考书中的学生智商与SAT例子,见下表。
先验概率分布 | 条件概率分布 | 联合概率分布 | |||
学生智商 | SAT成绩低|学生智商 | SAT成绩高|学生智商 | SAT成绩低 | SAT成绩高 | |
智商低 | 0.7 | 0.95 | 0.05 | 0.665 | 0.035 |
智商高 | 0.3 | 0.2 | 0.8 | 0.06 | 0.24 |
由上表可知,对于一个学生SAT打高分的概率是0.035+0.24=0.275,打低分的概率是0.665+0.06=0.725。这是SAT分数的边缘分布。
然而在已知学生智商高时,此时这个学生SAT打高分的概率成了0.8,可以看出智商高的学生更容易在SAT考试中打高分。即学生的智商高低影响了学生的SAT分数,而且可以看出这个影响非常大。
- 基于条件概率分布的参数表示
从上面的例子看以看出,最少需要3个参数就能完整填出整张表,比如 P(智商低=0.7),P(SAT成绩低|智商低=0.95),P(SAT成绩低|智商高=0.2) ,完整的联合分布也只需要 22−1=3 个参数。
再考虑一组6个二值随机变量 X1,X2...X6 ,写成 X1,X2,X3 对 X4,X5,X6 的条件分布形式,即:
P(X1,X2,X3,X4,X5,X6)=P(X4,X5,X6)P(X1,X2,X3|X4,X5,X6)
对于左边,有 26−1 个独立参数
对于右边, P(X4,X5,X6) 的联合分布有 23 个参数,其中独立参数 23−1 个。对于每组 P(X4,X5,X6) , P(X1,X2,X3|X4,X5,X6) 需要独立参数 23−1 个。
所以独立参数一共 23−1+23(23−1)=26−1 ,可以看出,条件概率分布虽然使得某些信息更加直观,但是并不会减少独立参数的个数。
1.3 朴素贝叶斯模型
随机变量的条件独立性
从上一章的内容可以知道,现实中很多事件之间并不具备独立性,更多的是条件独立性,随机变量也是一样。
仅考虑上图中的(b)图,可以看出学生的学科成绩与SAT成绩是和学生的智力是有关系的,但是学科成绩和SAT成绩独立吗?从常识来看两者肯定是有关系的,因为一个学生SAT成绩好,可以认为这个学生智商高的可能性越高,那么从而可以认为他的学科成绩也越高。由此可知学科成绩与SAT成绩是不独立的。由于学科成绩与SAT成绩都被学生智力高低影响,加入已知了学生的智力很高,那么这位学生的学科成绩和SAT成绩将不会互相影响,即 P(G|I=1)=P(G|S,I=1) ,学科成绩与SAT成绩高低在已知学生智力时条件独立。
朴素贝叶斯假设
上述模型更一般化就是朴素贝叶斯模型,,朴素贝叶斯模型基于朴素贝叶斯假设,即在给定样本的分类情况下,样本的所有特征条件独立。
根据上图的独立性假设,可以得出联合分布公式:
对于先验概率
P(C)
,需要
1
个独立参数,而对于每组
然而该模型的强独立性假设也是不常见的,直接使用会导致模型的准确度降低。
2 贝叶斯网
贝叶斯网与朴素贝叶斯一样通过条件独立性来降低模型独立参数的数量,但是贝叶斯网不必限制分布必须满足朴素贝叶斯所隐含的强独立性假设。
2.1 贝叶斯网的基本独立性
局部概率模型
如下图所示,贝叶斯网用有向图表示,其中节点表示随机变量,而边则表示一个变量对另一个变量的直接影响。
网络中每一个节点都关联着一个条件分布:没有父节点的节点,比如D,I,对应的就是其边缘分布;有父节点的节点,如G,S,L,有着在已知父节点取值情况下的条件分布。
由此对于联合空间任何一个状态,有:
P(I,D,G,S,L)=P(I)P(D)P(G|I,D)P(S|I)P(L|G)
上式是贝叶斯网的链式法则的一个例子。贝叶斯网语义
”节点只直接依赖其父节点“是贝叶斯语义的核心。下面给出形式化的定义:
贝叶斯网络 G 包含的节点对应随机变量X1,X2,...Xn 的一个有向无圈图。
PaGXi :表示节点 Xi 在G中的父节点集合
NDGXi :表示节点 Xi 在G中的非后代节点集合
那么对每个变量 Xi ,有:
P(Xi⊥NDGXi|PaGXi)
即给定某节点的父节点,那么该节点与其它非后代节点独立。那么对于上图的学生例子,有 P(D⊥I),P(L⊥D,I,S|G),P(S⊥D,G,L|I) 等等。
2.2 图与分布
如上图,贝叶斯网G可以看成是一系列独立性断言,另一方面,每个节点对应的条件概率分布通过链式法则最终生成的联合分布P也是一个独立性断言集合,它们俩对应的条件独立性其实是等价的。
用一系列公式来表述,即假设:
I
定义为独立性断言集合
那么有
I−map
推广到更一般的情况,对于任何一个概率分布 P 以及图G ,如果 I(G)⊆I(P) ,那么称 G 是P 的一个 I−map ,即图G所包含的独立性集合是分布P所包含的独立性集合的一个子集。参考书上的例子,定义X,Y是两个随机变量,概率分布如下:
X | P1(X,Y) | P2(X,Y) | |||||
X0 | Y0 | 0.08 | 0.4 | ||||
X0 | Y1 | 0.32 | 0.3 | ||||
X1 | Y0 | 0.12 | 0.2 | ||||
X1 | Y1 | 0.48 | 0.1 |
在 P1 中, X,Y 相互独立,于是 I(P1)={(X⊥Y)} ,而 P2 不包含任何独立性,即 I(P2)=∅
考虑两种不同的图结构,
G1
代表的图是X,Y之间没有连线,两个孤立的点。
G2
表示有一条节点X到节点Y的有向边。
由贝叶斯网的独立性可以知道,
I(G1)={(X⊥Y)}
,
I(G2)=∅
于是可以得出:
I(G1),I(G2) 都是 I(P1) 的子集,所以 G1,G2 是 P1 的一个 I−map
I(G2) 是 I(P2) 的子集,所以 G2 是 P2 的一个 I−map ,这时 G1 不是 P2 的 I−map 。
I−map 和因子分解
因子分解:设G是定义在随机变量 X1,X2....Xn 上的一个贝叶斯网,加入P可以表示为如下乘积:
P(X1,...,Xn)=∏iP(Xi|PaGXi)
那么称分布P是关于图G的一个因子分解。I−map 和因子分解联系了图模型与概率分布,两者的关系是相互的, I−map 和因子分解都能表示分布P中包含了图G中的所有独立性假设,它们用了不同的方式表达了相同的意思。
所以有:
如果G是P的一个 I−map ,那么P根据G因子分解。
如果P根据G因子分解,那么G是P的一个 I−map 。[证明参考习题3.9]