EM算法（期望最大化）——理论部分

最新推荐文章于 2025-04-25 10:00:00 发布

红旗漫卷西风

最新推荐文章于 2025-04-25 10:00:00 发布

阅读量5.3k

点赞数

分类专栏：机器学习基础知识

本文链接：https://blog.csdn.net/tingyue_/article/details/70474042

版权

机器学习基础知识专栏收录该内容

7 篇文章

订阅专栏

本文深入解析了EM算法的原理及步骤，阐述了如何通过迭代最大化对数联合概率期望来求解含隐变量的概率模型的最大似然解。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

EM算法的目标

EM算法是一种求解含有隐变量概率模型的最大似然解的方法。我们知道，当概率模型中含有隐变量时，其最大似然解是很难直接求解的。为什么很难直接求解呢？
考虑一个概率模型，我们将所有的观测变量统称为 $X$ ，参数统称为 $\theta$ 。我们的目标是求解似然函数 $p(X|\theta)$ 。假设该概率模型存在隐变量，统称为 $Z$ 。所以， $p(X|\theta)=\sum_Zp(X,Z|\theta)$ 。在求概率模型的最大似然解时，我们一般考虑对 $lnp(X|\theta)$ 进行求导。由于隐变量的存在， $lnp(X|\theta)=ln\sum_Zp(X,Z|\theta)$ ，求和符号在对数运算内部，对其进行求导是很困难的。

EM算法的步骤

由于含有隐变量概率模型的最大似然解很难直接求得，EM算法考虑用一种强大且优雅的方式来间接得到，这种方式就是迭代。EM算法通过两步迭代的方式，通过最大化“对数联合概率期望”，得到最大似然解。这里，我们先给出EM算法的一般步骤，之后一节从理论方面推导出该种方式的合理性。
EM算法主要分为两大步：
（1）E步骤：计算条件概率分布 $p(Z|X,\theta ^{old})$ ，由此可推知联合概率分布对数在条件概率 $p(Z|X,\theta ^{old})$ 下的期望 $Q(\theta,\theta^{old})=\sum_Zlnp(X,Z|\theta)p(Z|X,\theta^{old})$
（2）M步骤：计算 $\theta^{new}$ ，使得 $Q(\theta,\theta^{old})$ 最大化；即 ${argmax}_{\theta}Q(\theta,\theta^{old})$
不断迭代（1）（2）步，直到 $Q(\theta,\theta^{old})$ 收敛；否则 $\theta^{old} = \theta^{new}$ 。

EM算法的理论推导

从“EM算法的步骤”这一节，我们知道EM算法其实执行起来很简单。那么，为什么最大化联合概率分布的对数 $Q(\theta,\theta^{old})$ 求得的 $\theta$ 就是最大似然解呢？

这一节，我们主要是从理论层面，来解释EM算法的两步迭代的合理性。
首先我们知道有条件概率公式 $ln[p(X|\theta)]=ln\frac{p(X,Z|\theta)}{p(Z|X,\theta)}$ 成立。在隐变量上，我们引入分布 ${q(Z)}$ 。

$\because \sum_Z{q(Z)} = 1 且 p(X|\theta)不依赖于分布q(Z) \\ \therefore ln[p(X|\theta)] =ln\frac{p(X,Z|\theta)}{p(Z|X,\theta)}\sum_Z{q(Z)} = \sum_Z{q(Z)ln\frac{p(X,Z|\theta)}{p(Z|X,\theta)}} \\ ln[p(X|\theta)] = \sum_Z{q(Z)ln[\frac{p(X,Z|\theta)}{q(Z)}\frac{q(Z)}{p(Z|X,\theta)}]} \\ ln[p(X|\theta)] = \sum_Z{q(Z)ln\frac{p(X,Z|\theta)}{q(Z)}}-\sum_Z{q(Z)ln\frac{p(Z|X,\theta)}{q(Z)}}$
令 $\zeta(q,\theta) = \sum_Z{q(Z)ln\frac{p(X,Z|\theta)}{q(Z)}}, KL(q||p) =-\sum_Z{q(Z)ln\frac{p(Z|X,\theta)}{q(Z)}}$ ；
则有 $ln{[p(X|\theta)]} = \zeta(q,\theta) + KL(q||p)$

其中 $KL(q||p)$ 表示 $q(Z)$ 和 $p(Z|X,\theta)之间的$ $KL$ 散度。 $KL$ 散度有如下性质：
（1） $\forall q, KL(q||p) \geq 0$
（2）当且仅当 $q=p$ 时， $KL(q||p) = 0$

下图1表示 $ln{[p(X|\theta)]} ，\zeta(q,\theta) ，KL(q||p)$ 三者之间的关系：

由此可知， $\zeta(q,\theta)$ 是 $ln{[p(X|\theta)]}$ 的一个下界。

我们最初目的是为了求解 ${argmax}_{\theta}ln{[p(X|\theta)]}$ ，这个问题可进行转化：寻找这样一个概率分布 $q(Z)$ ，使得 $q(Z) = p(Z|X,\theta)$ ，从而有等价关系 $ln{[p(X|\theta)]} = \zeta(q,\theta)$ ，这时 ${argmax}_{\theta}ln{[p(X|\theta)]}$ 可转化为 ${argmax}_{\theta} \zeta(q,\theta)$ 。

我们如何寻找这个 $q(Z)$ 呢？我们知道 $p(Z|X,\theta)$ 是不能直接得到的。
注意到 $ln{[p(X|\theta)]}$ 其实不依赖概率分布 $q(Z)$ ，如果我们固定 $\theta_0$ ，那么 ${argmax}_{q}\zeta(q,\theta_0)$ 的解其实就是 $p(Z|X,\theta_0)$ 。

因为对于任意 $q(Z)$ ， $ln{[p(X|\theta_0)]}$ 为定值，而 $\zeta(q,\theta_0)$ 是 $ln{[p(X|\theta_0)]}$ 的下界，那么理所应当的是 $\zeta(q,\theta_0)$ 的最大值为 $ln{[p(X|\theta_0)]}$ ，也就是 $KL(q||p) = 0$ ，由 $KL$ 散度性质可知 $q(Z) = p(Z|X,\theta_0)$ 。

由上述描述，我们可知转化后的问题涉及到两个“固定”：（1）固定 $\theta = \theta^{old}$ ，求解 ${argmax}_q \zeta(q,\theta^{old})$ ，也就是计算 $q(Z) = p(Z|X,\theta^{old})$ ；（2）固定 $q(Z) = p(Z|X,\theta^{old})$ ，求解 ${argmax}_{\theta} \zeta(q,\theta)$ 。通过这两个固定不断迭代最大化 $\zeta(q,\theta)$ ，从而得到最大似然解 $\theta_{opt}$ 。终于，我们期待的“优雅而强大”的迭代操作揭开了面纱。这两个“固定”，我们也可以用两张图来反应：
图1 固定 $\theta = \theta^{old}$

图2 固定 $q(Z) = p(Z|X,\theta^{old})$

说了这么多，该来解决我们这一节最开始提到的问题——“从理论层面，来解释EM算法步骤的两步迭代的合理性”。虽说，我们在理论上证明了EM算法确实是两步迭代操作，但是它是否有涉及到“最大化对数联合分布的期望”呢？
由于E步骤和固定（1）是完全一样的，我们需要说明的是固定（2）： ${argmax}_{\theta}\zeta(q,\theta)$ 和 M步骤： ${argmax}_{\theta}Q(\theta,\theta^{old})$ 是否为等价操作呢？

和前面一样，我们从公式来给出说明：
$\zeta(q,\theta) = \sum_Z{q(Z)ln\frac{p(X,Z|\theta)}{q(Z)}}$

$\because q(Z) = p(Z|X,\theta^{old})$
$\therefore \zeta(q,\theta) = \sum_Z{p(Z|X,\theta^{old})ln\frac{p(X,Z|\theta)}{p(Z|X,\theta^{old})}}$
$\Rightarrow \zeta(q,\theta) = \sum_Z{p(Z|X,\theta^{old})lnp(X,Z|\theta)}- \sum_Z{p(Z|X,\theta^{old})lnp(Z|X,\theta^{old})}$
$\Rightarrow \zeta(q,\theta) = Q(\theta,\theta^{old})- const$