EM算法（最大期望算法）

Max_Uer

于 2024-10-11 19:53:10 发布

阅读量465

点赞数 13

分类专栏：扩散模型学习文章标签：算法概率论机器学习

本文链接：https://blog.csdn.net/Max_Uer/article/details/142861942

版权

扩散模型学习专栏收录该内容

2 篇文章 0 订阅

订阅专栏

EM 算法

1、问题描述

极大似然法是最常用的参数估计方法之一。设观测变量为 $x$ ，模型参数为 $\theta$ ，则极大似然法通过最大化似然函数 $p(x|\theta)$ 或对数似然 $\log p(x|\theta)$ 来求解最优的 $\theta$ . 然而在一些问题中，观测变量 $x$ 依赖于隐变量 $z$ . 此时根据全概率公式有：
$p(x|\theta)=\sum_z p(x,z|\theta) \quad or \quad p(x|\theta)=\int_z p(x,z|\theta)dz$
对数似然为：
$L(\theta)=\log p(x|\theta)=\log \sum_z p(x,z|\theta)$
如果仍然使用极大似然法，我们会发现 $L(\theta)$ 的导数将变得非常复杂，要优化的参数之间无法分离，导致无法写出封闭形式的解。这时就需要用到 EM 算法了。

2、理论推导

首先介绍 Jensen 不等式：
若 $f$ 是凸函数，则有：
$E(f(X))\ge f(E(X))$
当随机变量 $X$ 为常数时等号成立。
若 $f$ 是凹函数，则结论相反。

回到上面的问题，我们为隐变量 $z$ 引入一个概率分布 $q (z)$ ，则有：
$L(\theta)=\log \sum_z p(x,z|\theta)=\log \left(\sum_z q(z)\frac{p(x,z|\theta)}{q(z)}\right)\ge \sum_z q(z)\log\frac{p(x,z|\theta)}{q(z)} =J(\theta,q)$
（不等号使用了 Jensen不等式。函数 $f$ 是 log 函数，凹函数）

当 $q(z)=p(z|x,\theta)$ 时，等号成立，因此 $J(\theta,q)$ 是 $L(\theta)$ 紧的下界，所以可以将最大化 $L(\theta)$ 的问题变为最大化 $J(\theta,q)$ ：
$\max_\theta L(\theta)\Leftrightarrow\max_{\theta,q} J(\theta,q)$
不过，同时优化 $\theta$ 和 $q$ 依旧非常困难，因此 EM 算法采用交替迭代的方式优化：

E-step 固定 $\theta $ 优化 $q$ ：
$q^{t+1}=\argmax_q J(\theta^t,q)$
由上面取等号条件可知：$q^{{t+1}=p(z|x,\theta}t) $
M-step 固定 $q$ 优化 $\theta $：
$\theta^{t+1}=\argmax_\theta J(\theta,q^{t+1})$
上述优化目标可以拆出一个与 $\theta$ 无关的常数项：

$\begin{align*} J(\theta,q^{t+1})&=\sum_z q^{t+1}(z)\log p(x,z|\theta)-\sum_z q^{t+1}(z)\log q^{t+1}(z) \\ &=\sum_z p(z|x,\theta^t)\log p(x,z|\theta)-\sum_z q^{t+1}(z)\log q^{t+1}(z) \end{align*}$
令 $Q(\theta,\theta^t)=\sum_z p(z|x,\theta^t)\log p(x,z|\theta)$ ，因为第二项为常数，因此只优化第一项即可：
$\theta^{t+1}=\argmax_\theta Q(\theta,\theta^t)$

经过一轮 E-step 和 M-step，有：
$L(\theta^{t+1})\ge J(q^{t+1},\theta^{t+1})\ge J(q^{t+1},\theta^t)=L(\theta^t)$
可知 $L(\theta)$ 确实得到了优化。

3、算法步骤

综上所述，EM算法的步骤如下：

随机初始化 $\theta^0$
E-step：给定 $\theta^t$ ，求隐变量的后验分布：
$q^{t+1}=p(z|x,\theta^t)$
M-step：
优化 $Q(\theta,\theta^t)=\sum_z p(z|x,\theta^t)\log p(x,z|\theta)$
得到： $\theta^{t+1}=\argmax_\theta Q(\theta,\theta^t)$
迭代执行 2、3 步直至收敛。

4、另一种分析

可以从另一种角度，绕过 Jensen 不等式进行推导，如下：
$\begin{align*} L(\theta)&=\log p(x|\theta)\\ &=\int_z q(z)\log p(x|\theta)dz\\ &=\int_z q(z)\log \frac{p(x|z,\theta)p(z)}{p(z|x,\theta)}\frac{q(z)}{q(z)}dz\\ &=\int_z q(z) \log p(x|z,\theta)dz-\int_z q(z)\log \frac{q(z)}{p(z)}dz+\int_z q(z)\log\frac{q(z)}{p(z|x,\theta)}dz\\ &=\int_z q(z)\log \frac{p(x|z,\theta)p(z)}{q(z)}dz + KL(q(z)||p(z|x,\theta))\\ &=\underbrace{\int_z q(z)\log p(x,z|\theta)dz}_{J(\theta,q)}+\underbrace{KL(q(z)||p(z|x,\theta))}_{\ge 0} \end{align*}$