概率图模型 4（变分推断）

最新推荐文章于 2023-03-21 10:47:33 发布

prupcognition

最新推荐文章于 2023-03-21 10:47:33 发布

阅读量249

点赞数

分类专栏：机器学习算法基础数学

本文链接：https://blog.csdn.net/m0_37896765/article/details/100653460

版权

机器学习算法同时被 2 个专栏收录

17 篇文章 0 订阅

订阅专栏

基础数学

10 篇文章 1 订阅

订阅专栏

变分推断属于近似推断
令 $\theta 是参数$
根据贝叶斯公式有
$p(x)=\frac{p(x,z)}{p(z|x)}$
在给定参数 $\theta$ 情况下：
$p(x|\theta)=\frac{p(x,z|\theta)}{p(z|x,\theta)}$
方程两边取对数有
$\log p(x|\theta) =\log p(x,z|\theta)-\log p(z|x,\theta)$
原有分布不好求，引入一个知名分布 $q (z)$ ,原式有：
$\log p(x|\theta) =\log p(x,z|\theta)-\log q(z) -\log p(z|x,\theta)+\log q(z)$
$=\log \frac{p(x,z|\theta)}{q(z)}-\log \frac{p(z|x,\theta)}{q(z)}$
方程两边对z取积分有
左边：
$\int_z\log p(x,z|\theta)dz=\int_z\log p(z|x,\theta)p(x|\theta)dz$
$=\log p(x|\theta)\int_z p(z|x,\theta)dz$
$=\log p(x|\theta)$
右边：
$\int_zq(z)\log \frac{p(x,z|\theta)}{q(z)}dz-\int_z q(z)\log \frac{p(z|x,\theta)}{q(z)}dz$

$=\int_zq(z)\log \frac{p(x,z|\theta)}{q(z)}dz+\int_z q(z)\log \frac{q(z)}{p(z|x,\theta)}dz$
其中：
$\int_zq(z)\log \frac{p(x,z|\theta)}{q(z)}dz 叫作ELBO$
$\int_z q(z)\log \frac{q(z)}{p(z|x,\theta)}dz 是KL({q(z)}||{p(z|x,\theta)})$
因为 $KL({q(z)}||{p(z|x,\theta)})$ 是大于0的量，并且当 $q (z)$ 和原始分布越接近， $KL({q(z)}||{p(z|x,\theta)})$
值越接近于0，于是问题可以转化为求最大化 $E L B O 项，求 E L B O 的过程也就叫变分推断$
展开 $E L B O$ 有：
$\int_zq(z)\log \frac{p(x,z|\theta)}{q(z)}$
$=\int_zq(z)\log{p(x,z|\theta)}dz -\int_zq(z)\log{q(z)}dz$
这里假定分布 $q(Z)=\prod_i q_i(z_i)$ ,也就是假定 $q (Z)$ 服从均值理论，等于多个分布的联乘，也就是近似的由来
带入上式有：
$=\int_z\prod_i q_i(z_i)\log{p(x,z|\theta)}dz -\int_z\prod_i q_i(z_i)\log{q(z)}dz$

减号左边有：
$\int_z\prod_i q_i(z_i)\log{p(x,z|\theta)}dz$
提出 $q_j(z_j)有：$
$=\int_{z_j}q_j(z_j) (\int_z\displaystyle \prod_{i\not= j}^m q_i(z_i)\log{p(x,z|\theta)}dz_{1...m} )dz_j$
$=\int_{z_j}q_j(z_j) (E[\log{p(x,z|\theta)}]dz_j,其中E是关于\displaystyle \prod_{i\not= j}^m q_i(z_i)的期望$

减号右边有：
$\int_z\prod_i q_i(z_i)\log{\prod_i q_i(z_i)}dz_i$
$=\int_z\prod_i q_i(z_i)\sum_i \log{q_i(z_i)}dz_i$
$=\int_z\prod_i q_i(z_i)(\log q_1(z_1)+\log q_2(z_2)+...+ \log q_m(z_m))dz_i$
$=\sum_i \int_zq_i(z_i)\log q_i(z_i)dz_i$
由于这里只关心其中一项 $q_j(z_j)$ ，把其他项可以视作常数，
$\int_zq_j(z_j)\log q_j(z_j)dz_j +C$

$减号左边 - 减号右边有 :$
$\int_{z_j}q_j(z_j) E[\log{p(x,z|\theta)}]dz_j -\int_zq_j(z_j)\log q_j(z_j)dz_j -C$
令 $E[\log{p(x,z|\theta)}]=\log \hat p(x,z)有$
$\int_{z_j}q_j(z_j)\log \hat p(x,z)dz_j -\int_zq_j(z_j)\log q_j(z_j)dz_j -C$
$=\int_{z_j}q_j(z_j)\log \displaystyle \frac{\hat p(x,z_i)}{q_j(z_j)}$
$=-\int_{z_j}q_j(z_j)\log \displaystyle \frac{q_j(z_j)}{\hat p(x,z_i)} \leq0$
所以当使得 $q_j(z_j) = \hat p(x,z_i)时，函数能取最大值$

prupcognition

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
概率图模型 4（变分推断）

变分推断属于近似推断令X是观测变量，Z是隐变量，θ是参数X 是观测变量，Z 是隐变量， \theta 是参数X是观测变量，Z是隐变量，θ是参数根据贝叶斯公式有p(x)=p(x,z)p(z∣x)p(x)=\frac{p(x,z)}{p(z|x)}p(x)=p(z∣x)p(x,z)在给定参数θ\thetaθ情况下：p(x∣θ)=p(x,z∣θ)p(z∣x,θ)p(x|\theta)=\fr...
复制链接

扫一扫