mysql 大数据 实验数据 实验 贝叶斯网_PGM:贝叶斯网的参数估计

本文讨论(完备数据的)贝叶斯网的参数估计问题:贝叶斯网的MLE最大似然估计和贝叶斯估计。假定网络结构是固定的,且假定数据集D包含了网络变量

7b3560e1826ec89497e7cdbfe548dbe4.png的完全观测实例。

参数估计的主要方法有两种:一种基于最大的似然的估计;一种是使用贝叶斯方法。

贝叶斯网的MLE参数估计

最大似然估计MLE

简单示例:局部似然函数

仅包含两个二元变量的网络,即弧

3ccbaff39999fa985e42038ba8011e9d.png

aec10ed49f79b47c018d0cd579484cee.png

bab7a73d72933b0125a5f42c11676b8b.png

0e72d6708b3cea922de30e9ea0da116a.png

从上看出,似然函数被分解为两项,且每一项对应一个变量。每一项都是一个局部的似然函数,度量了在给定其父节点时预测变量的性能。每一项都只依赖于变量的CPD的参数。

考虑分解的两个单独项

第一项与前面的多项式似然函数一样。

第二项进一步分解:似然函数的可分解性

局部似然函数分解

e1597d1b7f076234a15b173ad53ed971.png

同理可得theta y0|x0。但是后面有一个更简单更紧凑的使用CPD表方式快速同时计算这两个参数的方法。

变量集合的各种赋值的计数

f767ca9bca03ea954602692c14f9ab24.png

a1561493509bff9bac844c67bb51ee7d.png

全局似然分解:转换为局部似然函数

注意,贝叶斯网中节点代表的是随机变量(也就是每个样本的维度,而不是每个样本)。样本数目为m,维度数为i。

似然函数的全局分解

全局似然分解成局部似然函数乘积

aec66cf4ac61244fa5d422b224cee012.png

Note: 方括号中的每一项表示网络中一个特定变量在给定父节点时的条件似然。

18e951da6067b9a4febba6a6f306c4f0.png

结论

af57a591e016e85097058b2cc17dfc48.png

89cce8810bca45095b796be0b898a828.png

CPD表:进一步分解局部似然函数

参数的选择决定了我们最大化每个局部似然函数的方法。现考虑一种可能是CPD最简单的参数化:CPD表(table-CPD)。

贝叶斯网局部MLE的进一步分解

08ea7183a1e221e606a2dd91ef1f5d15.png

4a35b335289e0fdcd38b039331856abd.png

a08f45af0122ec7d2bda441ce2ed1e81.png

方框项独立最大化

也就是说,之前简单的示例中我们是分别计算p(x0|u0)p(x1|u0),现在通过式17.5出现次数(更紧凑的表示)一次同时计算出2个参数p(x0|u0)p(x1|u0)了。

1d831907561b49afb0513343bbf350cf.png

Note: 式17.5就是通过MLE估计出的贝叶斯网的参数计算公式。

数据碎片与过拟合:缺少可靠的大量估计参数的数据

835fd19ff302855e94ae12d81e093fa5.png

e1da2755736929f823501c75d9b73d45.png

高斯贝叶斯网*

。。。

专栏17.B——概念:非参数模型

作为M-投影的最大似然估计*

。。。

MAP估计

贝叶斯网的贝叶斯参数估计

贝叶斯框架要求在未知的参数和数据实例上指定一个联合分布。与单个参数的情况一样,可以将参数和数据上的联合分布理解为一个贝叶斯网。

贝叶斯参数估计

参数独立性与全局分解

简单的例子

960df0e351e01cc4da0a53d9ce605261.png

0413afc367c749f6121242626498a881.png

图7中的b

87a42d358632694a9c23293cc860b7e7.png

aeb528611e91ba1f9198eb192b3da1f6.png

全局参数独立性:假设要估计参数之间独立

这里有一个假设:网络结构体现出单个参数变量的先验是先验独立的(没有观测到数据时就是独立的)。即我们认为知道其中一个参数的参数值并不能告诉我们另一个参数的任何信息。更确切的有如下定义

1455a5a0b12d8a0e00db843e1d6f1b4f.png

fb82348d18d6c95ccc15b6ca33ea2c49.png

同时,如果参数变量是先验独立的,那么观测到数据时,也可以得到它们是后验独立的。也就是说,如果这两个参数是独立的先验,那么它们也是独立的后验。

317588313fb1e8424dfab1c8a9815df3.png

也就是后验可以用紧凑的因子分解的形式表达。

一般的网络

假定已经给定了一个具有参数theta的网络结构G。

dc633c93f5fb657caf95ef9fd3ce84dc.png

4dfd763750e666a81500ba7015344392.png

所以,从上面最终的公式中可以看出,这个和MLE很相似,剩下要做的就是先验p(thetax|pax)的确定上了(其中p(thetax我们已经知道了,如Dirichlet分布))。

8f96ac078d720c236a424b23bf635596.png

预测

ce6bea14a270e3477ce648e0838670a7.png

4fccf4c997920c5ff449adf2077d1412.png

a7ca683020e36c98abc3db14dc5eb36f.png

局部分解和贝叶斯网学习的先验分布

通过对局部贝叶斯估计问题求解来得到全局贝叶斯解。

3eee8df1f81f06b43af6130100aee792.png

theta x的后验

d8f3a855dd2e1804c80583352a2c98d5.png

theta y|x的后验

419c6885034cb355a856b6bb88c533bd.png

上面独立先验的证明:

a794b300925f82b23e311df8f1ac1ce6.png

4e2e3ee699095327cd2a3d92c78907ca.png

theta y|x的狄利克雷分布先验

dcdfcf80e67b7aa9ddef17daff457b8c.png

预测和参数估计

49c64f6b18db866f3714c753c876b830.png

477345eed30a7efa2db2d57a73e6b7ba.png

b7ed8ed788b327d8ecac3ff7a49ad544.png

此式应该也就是贝叶斯网的贝叶斯参数估计计算公式。

b1aec7d9c1a7d56480b54662629dd431.png

贝叶斯网学习的先验分布参数的确定

90d7233fef1b54c49ee28ac824a2631e.png

专家赋值、K2先验(相同的固定先验)、利用先验数据集(等价于MLE了)、BDe先验分布。

6af4c347d6aa720b2534a9a008357b2b.png

07f0f28543d4b5ea454a4ed14fc50e15.png

先验对参数估计的影响:MLE和不同强度alpha贝叶斯估计的比较

专栏17.C

检验了MLE方法和一些贝叶斯方法,所有方法使用了统一的先验均值和不同的先验强度alpha。

fe771ce1ea611be6a552eafdd0a92834.png

92452698b578858815a3fd5de71b9163.png

ref: [《Probabilistic Graphical Models:Principles and Techniques》(简称PGM)]

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值