浅谈EM算法_em算法效果如何-CSDN博客

本文链接：https://blog.csdn.net/m0_37717236/article/details/70666644

一般形式的EM算法

期望最大化算法，或者EM算法，是寻找具有潜在变量的概率模型的最大似然解的一种通用的方法(Dempster et al., 1977; MaLachlan and Krishman, 1997), 同时也构成了变分推断框架推导的基础。

考虑一个概率模型，其中将所有的观测变量联合起来记作X, 将所有的隐含变量记作Z。联合概率分布 $p(X, Z| \theta )$ 由一组参数控制，记作 $\theta$ 。我们的目标是最大化似然函数

p (X | θ) = \sum Z p (X, Z | θ)

$p(X | \theta ) = \sum_Z p(X, Z| \theta)$
这里先假设Z是离散的。

我们假设直接最优化 $p(X| \theta)$ 比较困难，但是最优化 $p(X,Z| \theta)$ 会容易很多。接下来，我们引入一个定义在潜在变量Z上的概率分布 $q(Z)$ 。可以观察到，对于任意的 $q(Z)$ ，下面的分解成立

l n p (X | θ) = L (q, θ) + K L (q | | p)

$ln p(X| \theta) = L(q,\theta) + KL( q || p )$
其中，我们定义了

L (q, θ) = \sum Z q (Z) l n p ( X , Z | θ ) q ( Z )

$L(q,\theta) = \sum_Z q(Z)ln{p(X, Z| \theta) \over q(Z)}$

K L (q | | p) = - \sum Z q (Z) l n p ( Z | X , θ ) q ( Z )

$KL(q|| p) = -\sum_Z q(Z)ln{p(Z|X, \theta) \over q(Z)}$
注意,

L(q,θ) $L(q, \theta)$ 是概率分布

q(Z) $q(Z)$ 的一个泛函，并且是参数

θ $\theta$ 的一个函数。并且，以上两者的符号相反，

L(q,θ) $L(q, \theta)$ 包含了X和Z的联合概率分布，而

KL(q||p) $KL(q||p)$ 包含了给定X，

θ $\theta$ 条件下，Z的条件概率分布。分解公式的证明在这里就不给出了。

根据上面的公式，我们看到 $KL(q||p)$ 是 $q(Z)$ 和后验概率分布 $p(Z| X,\theta)$ 之间的Kullback-Leibler散度。回忆一下，Kullback-Leibler散度满足 $KL(q||p) \ge 0$ ，当且仅当 $q(Z) = p(Z|X, \theta)$ 时等号成立。因此， $L(q,\theta) \le lnp(X|\theta)$ , 换句话说， $L(q, \theta)$ 是 $lnp(X|\theta)$ 的一个下界。

EM算法是一个两阶段的迭代优化算法，用于寻找最大似然解。我们可以使用上述公式来定义EM算法，证明它确实最大化了对数似然函数。假设参数向量的当前值为 $\theta^{old}$ 。

在E步骤中，下界 $L(q, \theta^{ld})$ 关于 $q(Z)$ 被最大化，而 $\theta^{old}$ 的最大值出现在Kullback-Leibler散度等于零的时候，换句话说，最大值出现在q(Z)与后验概率分布 $p(Z| X,\theta)$ 相等的时候。此时，下界等于对数似然函数。

这里写图片描述

在M步骤中，分布q(Z)保持固定，下界 $L(q, \theta)$ 关于 $\theta$ 进行最大化，得到了某个新的值 $\theta^{new}$ 。这会使得下界L增大(除非已经达到了极大值)，这会使得对应的对数似然函数增大。由于概率分布 $q$ 由旧的参数值确定，并且在M步骤中保持固定，因此它不会等于新的后验概率分布 $p(Z|X，\theta^{new})$ ，从而KL散度非零。于是，对数似然函数的增加量大于下界的增加量。

这里写图片描述

此时我们将 $q(Z) = p(Z|X, \theta^{old})$ 代入公式，在E步骤后，下界的形式为

L (q, θ) = \sum Z p (Z | X, θ o l d) l n p (X, Z | θ) - \sum Z p (Z | X, θ o l d) l n p (Z | X, θ o l d)) = Q (θ, θ o l d) + 常 数

$L(q, \theta) = \sum_Z p(Z|X,\theta^{old})lnp(X,Z|\theta) - \sum_Z p(Z|X, \theta^{old})lnp(Z|X,\theta^{old})) = Q(\theta, \theta^{old}) + 常数$
其中，常数就是分布

q $q$ 的熵，因此与

θ $\theta$ 无关。从而在M步骤中，最大化的量是完整数据对数似然函数的期望，并且我们进行优化的变量

θ $\theta$ 只出现在对数运算内部。如果联合概率分布

p(Z,X|θ) $p(Z,X|\theta)$ 由指数族分布的成员组成，或者由指数族分布成员的乘积组成，那么我们看到对数运算会抵消指数运算，从而使得M步骤通常比最大化对应的不完整数据对数似然函数

p(X|θ) $p(X|\theta)$ 要容易得多。

Reference
Chapter 9 of PRML : Mixture Models and EM