对于EM算法的一点思考

最新推荐文章于 2022-05-28 14:13:52 发布

蒟蒻在此

最新推荐文章于 2022-05-28 14:13:52 发布

阅读量119

点赞数

分类专栏：算法笔记文章标签：人工智能数据分析算法机器学习

本文链接：https://blog.csdn.net/qq_41102208/article/details/110521646

版权

算法笔记专栏收录该内容

1 篇文章 0 订阅

订阅专栏

动机

当我们存在隐变量的时候，我们从数据中观察到的 $p (x)$ ，可能是有隐变量z所影响得到的 $p (x ∣ z)$ ，当我们要计算
$\begin{aligned} \mathcal{L(\theta)}&=\sum_{i=1}^{N}\log(p(x_i|\theta))\\&=\sum_{i=1}^{N}\log \Bigl[\sum_{z_i}p(x_i,z_i|\theta) \Bigr]\\&=\sum_{i=1}^{N}\log \Bigl[\sum_{z_i}\bigl[p(x_i|z_i,\theta)p(z_i|\theta)\bigr] \Bigr] \end{aligned}$
如果p是个指数族分布，log就可以直接作用于p，似然度就很好求，但是log被 $\sum_z$ 截断，又因为z是隐变量，我们不知道z的取值，所以需要找其他的方法去优化。

想法

我们引入一个 $q_i(z_i)$ 代表 $z_i$ 的分布
$\begin{aligned} \log p(x_i|\theta) &= \log p(x_i,z_i|\theta)-\log p(z_i|x_i,\theta)\\ &= \log \frac{p(x_i,z_i|\theta)}{q_i(z_i)} - \log \frac{p(z_i|x_i,\theta)}{q_i(z_i)}\\ &= \log p(x_i,z_i|\theta) - \log q_i(z_i) - \log \frac{p(z_i|x_i,\theta)}{q_i(z_i)}\\ &= \int q_i(z_i)\log p(x_i,z_i|\theta) \mathrm{d}z - \int q_i(z_i)\log q_i(z_i) \mathrm{d}z - \int q_i(z_i)\log \frac{p(z_i|x_i,\theta)}{q_i(z_i)} \mathrm{d}z \\ &= \underbrace{E_{z_i}(\log p(x_i,z_i|\theta)) + H(z_i)}_\text{ELBO} + KL(q_i(z_i)||p(z_i|x_i,\theta)) \end{aligned}$
因为对于KL散度是非负数，那么就有
$\log p(x_i|\theta) \geq E_{z_i}(p(x_i,z_i|\theta)) + H(z_i)$
那么我们让KL散度为0，也就是 $q_i(z_i)=p(z_i|x_i,\theta)$ ，我们所要求的似然值就等于 $E_{z_i}(p(x_i,z_i|\theta)) + H(z_i)$ ，也就是ELBO，那么我们接下来的任务就是最大化ELBO。
对于 $H(z_i)$ 来说是个常数，我们不用管，那么最后的任务就是最大化 $E_{z_i}(p(x_i,z_i|\theta))$ 。
又因为我们让KL散度等于0，存在 $q_i(z_i)=p(z_i|x_i,\theta)$
$\begin{aligned} ELBO_i&=E_{z_i}(p(x_i,z_i|\theta))+const\\ &= \int q_i(z_i)\log p(x_i,z_i|\theta) \mathrm{d}z+const\\ &= \int p(z_i|x_i,\theta)\log p(x_i,z_i|\theta) \mathrm{d}z+const \end{aligned}$