EM算法

最新推荐文章于 2023-08-12 10:25:34 发布

青石9974

最新推荐文章于 2023-08-12 10:25:34 发布

阅读量114

点赞数

本文链接：https://blog.csdn.net/qq_43250952/article/details/108695500

版权

EM算法

主要解决含有隐变量（latent variable）的参数估计问题。
一般求解参数我们会使用极大似然估计（MLE），即对于条件概率
$\theta)$ ,通过 $\theta_{MLE} = \argmax_{\theta}\log P(x|\theta)$ ，来求解参数。但对于高斯混合模型这种带有隐变量的复杂的模型，无法直接通过MLE进行参数求解，需要通过EM算法进行迭代的更新，进而得到最优的 $\theta$ 。

EM算法主要公式：
$\theta^{t+1}=\argmax_\theta\int_z\log P(x,z|\theta)\cdot P(z|\theta^{t},x)dz$

其中 $z$ 为隐变量， $P(z|\theta^{t},x)$ 为其后验分布。上式右端亦可写作对期望 $\mathbb{E}_{z|\theta^t,x}(\log P(x,z|\theta))$ 进行最大化。

EM算法收敛性证明

要证明EM算法的收敛性，需证明每次迭代后 $P(x|\theta)$ 均变大，即 $\log P(x|\theta^{t+1})\geqslant \log P(x|\theta^t)$ 。两边同时对变量 $(z|x,\theta^t)$ 积分，其中右端为：
$\int_z\log P(x|\theta^t)P(z|x,\theta^t)dz=\log P(x|\theta^t)$

左端为：
$\begin{aligned} \int_z\log P(x|\theta^{t+1})P(z|x,\theta^t)dz&=\int_z\log P(x,z|\theta^{t+1})P(z|x,\theta^t)-\log P(z|x,\theta^{t+1})P(z|x,\theta^t)dz & \end{aligned}$
对于第一项，由EM算法公式显然有 $\int_z\log P(x,z|\theta^{t+1})P(z|x,\theta^t)dz\ge\int_z\log P(x,z|\theta^{t})P(z|x,\theta^t)dz$ 。
而对于第二项，我们希望证得 $\int_z\log P(z|x,\theta^{t+1})P(z|x,\theta^t)dz\le\int_z\log P(z|x,\theta^{t})P(z|x,\theta^t)$
左减右得
$\int_zP(z|x,\theta^t)\log\frac{P(z|x,\theta^{t+1})}{P(z|x,\theta^t)}=-\textbf{KL }(P(z|x,\theta^t)||P(z|x,\theta^{t+1}))\le0$

至此，收敛性得证。

公式导出

EM算法主要有两步：
E-step： $P(z|x,\theta^t)\rightarrow$ $\mathbb{E}_{z|\theta^t,x}(\log P(x,z|\theta))$
即根据更新得到的 $\theta^t$ 重新计算期望。
M-step: $\theta^{t+1}=\argmax_\theta\int_z\log P(x,z|\theta)\cdot P(z|\theta^{t},x)dz$

我们需要最大化 $\log P(x|\theta)$ ，即
$\log P(x|\theta) =\log\frac{P(x,z|\theta)}{q(z)}-\log\frac{P(z|x,\theta)}{q(z)}$
两端同时对 $q (z)$ 积分，即
$\begin{aligned} \int_z q(z)\log P(x|\theta)dz&=\int_z \left(q(z)\log\frac{P(x,z|\theta)}{q(z)}-q(z)\log\frac{P(z|x,\theta)}{q(z)}\right)dz \\ &=\textbf{ELBO}+\textbf{KL}(q(z)||P(z|x,\theta)) \\ &\ge \textbf{ELBO} \end{aligned}$

因此我们需要最大化 $\textbf{ELBO}$ ,上式取等条件为 $q(z)=P(z|x,\theta^t)$ ,(此处先固定 $\theta$ 为上一次迭代的结果 $\theta^t$ 。则此时
$\textbf{EBLO}=\int_zP(z|x,\theta^t)\log\frac{P(x,z|\theta)}{P(z|x,\theta^t)}dz$

那么有
$\theta^{t+1} = \argmax_{\theta}\int_z\log P(x,z|\theta)\cdot P(z|x,\theta^t)dz$
从而有EM算法的表达式。

广义EM

EM算法中 $P(z|x,\theta^t)$ 可能无解析式，所以不能直接将 $q(z)=P(z|x,\theta^t)$ ，而在 $\theta$ 固定是情况下， $p(x|\theta)$ 也固定，因此我们需要降低 $\textbf{KL}(q(z)||P(z|x,\theta))$ 从而使得 $\textbf{EBLO}$ 变大。即先固定 $\theta$ ，令 $q(z)=\argmin_q\textbf{KL}(q||p)=\argmax_q\textbf{ELBO}$