概率图模型——变分法

最新推荐文章于 2023-08-21 22:29:20 发布

weixin_30399821

最新推荐文章于 2023-08-21 22:29:20 发布

阅读量407

点赞数

文章标签：人工智能

原文链接：http://www.cnblogs.com/huangxiao2015/p/5705238.html

版权

概率图模型——变分法

参考书籍：张连文等著. 《贝叶斯网络引论》

变分法的基本思想是通过变分转换，将概率推理问题转化为一个变分优化问题来处理。具体描述如下：设$N$为一个贝叶斯网络，表示联合分布$P(x)$。设观测到的证据为$E=e$，所有非证据变量的集合为$Z={Z_1,Z_2,...,Z_n}$,准备计算的是$P(E=e)$和$P(Z\mid E=e)$。变分法首先把这个概率推理问题转换为变分优化问题，定义如下的目标函数：

$$ J(Q)=\log P(E=e)-KL[Q(Z),P(Z|E=e)] $$

这里$Q(z)$是一族用来近似$P(Z\mid E=e)$的参数化分布，称为变分分布，而$KL[Q(z),P(Z\mid E=e)]$是变分分布$Q(z)$和待求的后验概率分布$P(Z\mid E=e)$之间的$KL$距离。上式可以展开为：

$$ \begin{aligned} J(Q)&=\log P(E=e)-\sum_Z Q(Z)\log \frac{Q(Z)}{P(Z\mid E=e)}\\ &=\log P(E=e) - \sum_Z Q(Z)\log \frac{Q(Z)P(E=e)}{P(Z,E=e)}\\ &=-\sum_Z Q(Z)\log Q(Z) + \sum_Z Q(Z)\log P(Z,E=e)\\ &=H_Q(Z)+\sum_Z Q(Z)\log P(Z,E=e) \end{aligned} $$

其中，上式中$H_Q(Z)$是$Z$相对于变分分布的$Q(Z)$的熵。考虑目标函数$J(Q)$的最大值点$Q^*$的性质，因为$KL$距离非负，且只有当它涉及到的两个分布相同的时候才能够取得最小值0，所以$J(Q)$取最大值的最优变分分布就是后验概率，即

$$ Q^*(Z)=P(Z\mid E=e) $$

此时，

$$ J(Q^*)=\log P(E=e) $$

因此，只要解决了这个变分优化问题，就得到了原概率问题的精确解。在实际中，上述变分优化问题的精确解其实并不容易得到，一个根本的原因就是变分分布$Q(Z)$的空间难以显示表达。因此，为了简化计算，朴素平均场法根据平均场理论的思想，将变分分布限制在一类简单的分布上，即用所有变量都相互独立的分布来近似后验分布，即：

$$ Q(Z)=\prod_{i=1}^n Q(Z_i) $$

尽管这是个很简单的分布，仍然有$\sum_{i=1}^n (\mid Z_i\mid-1)$个独立参数可以调节，代入前面的式子中，可以得到：

$$ J(Q)=\sum_{i=1}^n H_{Q_i}(Z_i) + \sum_Z [\prod_{i=1}^n Q_i(Z_i)]\log P(Z,E=e) $$

该式一般没有闭公式解，根据上上式，变分分布$Q(Z)$的边缘分布可以独立地改变，因此，可以利用如下的迭代法来优化目标函数$J(Q)$：

（1）可以从某个初始分布$Q^0(Z)$开始；
（2）repeat 直到收敛
	for i=1到n
	以$J(Q)$为目标函数，对变分边缘分布$Q_i(Z_i)$进行优化

转载于:https://www.cnblogs.com/huangxiao2015/p/5705238.html

weixin_30399821

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
概率图模型——变分法

概率图模型——变分法参考书籍：张连文等著. 《贝叶斯网络引论》变分法的基本思想是通过变分转换，将概率推理问题转化为一个变分优化问题来处理。具体描述如下：设$N$为一个贝叶斯网络，表示联合分布$P(x)$。设观测到的证据为$E=e$，所有非证据变量的集合为$Z={Z_1,Z_2,...,Z_n}$,准备计算的是$P(E=e)$和$P(Z\mid E=e)$。变...
复制链接

扫一扫