选修计算智能,后期讲大的是贝叶斯概率模型,记录一下学习过程
定义
有向图,每个节点都标注了定量概率信息
- 一个随机变量组成的网络节点,变量可以是离散的或是连续的;
- 一个连接点对的有向边或箭头集合。若存在节点x指向Y的有向边,则称X是Y的父节点;
- 每个节点Xi都有一个条件概率分布: P ( X i ∣ P a r e n t s ( X i ) ) P(X_i | Parents(X_i) ) P(Xi∣Parents(Xi))
- 一个有向无环图(DAG)
举例
- 天气跟其他三个变量是独立的;
- Toothache和Catch在给定Cavity的情况下是条件独立的。
下面举个例子:
条件概率表
图中每个分布显示为一个条件概率表(CPT).CPT中的每一行包含了每个节点值对于一个条件事件的条件概率。CPT中每行表示一个概率值p,p表示Xi为正确的概率,若Xi为错,则其概率为1-p。
贝叶斯网络语义
有以下两种方式理解贝叶斯网络的语义:
- 将贝叶斯网络视为对联合分布的表示
- 将其视为对条件依赖语句集合的编码,联合概率分布通过局部条件概率分布定义。
贝叶斯网络能够对域进行一种完备而冗余的表示,比全联合概率分布紧凑得多。
贝叶斯网络中每个组成部分都只与数量有限的其他部分发生直接的相互作用,而不考虑组成部分的总数量。局部的复杂度关于变量n是线性的,而不是指数增长的。
这里的960是因为每个点有5个布尔变量的父节点,所以每个节点需要的数据量为 2 5 2^5 25,所以一共需要 30 ∗ 2 5 = 960 30*2^5 = 960 30∗25=960。 全联合概率: 2 30 = 8 10 ≈ 1 0 10 2^{30} = 8^{10 }\approx 10^{10} 230=810≈1010。所以贝叶斯网络比全联合概率分布紧凑,其实也可以理解为某个节点的概率分布只与其父节点有关。
构造贝叶斯网络:
选择已排序的节点X1,。。。,Xn(类似链式法则,使得当前节点只与父节点有关)
构造完的贝叶斯网络中,某节点的概率只与其父节点有关
贝叶斯网络中的条件独立性
1、一个节点与他的非后代节点是条件独立的;
2、给定一个节点的父节点、子节点以及子节点的父节点(马尔可夫覆盖/markov覆盖),该节点与网络中的所有其他节点都是条件独立的。
B和J以及M是条件独立的。
条件分布的有效表达
CPT随着父节点个数的增加呈指数增长,
在父节点或子节点是连续情况下,CPT规模无限增长;
父节点与子节点之间的关系完全任意;
解决方法:采用符合某种标准模式的规范分布:
确定性节点的提供,一个确定性节点的取值能够由其父节点的取值完全确定,无不确定性。
混合贝叶斯网络
同时包含离散和连续的贝叶斯网络: