《统计学习方法》（第九章）—— EM算法及推广

本文链接：https://blog.csdn.net/mkopvec/article/details/90523803

EM算法的引入

概率模型有时既含有观测变量，又含有隐变量或潜在变量。所以不能直接用极大似然估计去估计参数。EM算法就是对含有隐变量模型的参数的极大似然估计算法。

EM算法

一般用 $Y$ 表示观测随机变量的数据， $Z$ 表示隐随机变量的数据， $Y$ 和 $Z$ 连起来称为完全数据， $Y$ 称为不完全数据。假设给定观测数据 $Y$ ，其概率分布 $P(Y|\theta)$ ，其中 $\theta$ 为参数。那么不完全数据 $Y$ 的似然函数是 $P(Y|\theta)$ ,其对数似然函数是 $L(\theta)=\log P(Y|\theta)$ ,假设 $Y$ 和 $Z$ 的联合改论分布是 $P(Y,Z|\theta)$ ，那么完全数据的对数似然函数是 $L(\theta)=P(Y,Z|\theta)$
$E M$ 算法基本思路是先求期望 $M$ 再进一步最大化，似然函数
算法：
输入：观测变量 $Y$ ，隐变量数据 $Z$ ，联合分布 $P(Y,Z|\theta)$ ,条件分布 $P(Z|Y,\theta)$
输出：模型参数 $\theta$
$(1)$ 选择参数的初始值 $\theta^{(0)},$ 开始迭代
$(2)$ $E$ 步：记 $\theta^{(i)}$ ，为第 $i$ 次迭代的参数估计值，在第 $i + 1$ 次迭代的 $E$ 计算
$Q(\theta,\theta^{(i)})=E_z[\log P(Y,Z|\theta)|Y,\theta^{(i)}]$
$=\sum\limits_{Z}\log P(Y,Z|\theta)P(Z|Y,\theta^{(i)})$
$(3)$ $M$ 步:求使 $Q(\theta,\theta^{(i)})$ 极大化的 $\theta$ ，确定第 $i + 1$ 次迭代的参数估计值 $\theta^{(i+1)}$
$\theta^{(i+1)}=\argmax\limits_{\theta}Q(\theta,\theta^{(i)})$
$(4)$ 重复 $(2), (3)$ 直到收敛

注意，定义 $Q(\theta,\theta^{(i)})=E_Z[\log P(Y,Z|\theta)|Y,\theta^{(i)}]$
当 $||\theta^{i+1}-\theta^{i}|| <\epsilon_1 \ \ \ \ or \ \ \ \ ||Q(\theta^{(i+1)},\theta^{(i)})-Q(\theta^{(i)},\theta^{(i)})||<\epsilon_2$
算法停止

EM算法的导出

对数似然函数为
$L(\theta)=\log P(Y|\theta)=\log \sum\limits_Z P(Y,Z|\theta)$
$=\log(\sum\limits_P(Y|Z,\theta)P(Z|\theta))$
我们希望新值 $L(\theta)>L(\theta^{(i)})$ 于是
$L(\theta)-L(\theta^{(i)})=\log (\sum\limits_ZP(Y|Z,\theta)P(Z|\theta))-\log P(Y|\theta^{(i)})$
利用 $J e n s e n$ 不等式得
$L(\theta)-L(\theta^{(i)})=\log(\sum\limits_ZP(Z|Y,\theta^{i})\frac{P(Y|Z,\theta)P(Z|\theta)}{P(Z|Y,\theta^{i})})-\log P(Y|\theta^{(i)})$
$\ge \sum\limits_ZP(Z|Y,\theta^{(i)})\log \frac{P(Y|Z,\theta)P(Z|\theta)}{P(Z|Y,\theta^{i})}-\log P(Y|\theta^{(i)})$
$=\sum\limits_ZP(Z|Y,\theta^{(i)})\log \frac{P(Y|Z,\theta)P(Z|\theta)}{P(Z|Y,\theta^{(i)})P(Y|\theta^{(i)})}$
令
$B(\theta,\theta^{(i)})=L(\theta^{(i)})+\sum\limits_ZP(Z|Y,\theta^{(i)})\log \frac{P(Y|Z,\theta)P(Z|\theta)}{P(Z|Y,\theta^{(i)})P(Y|\theta^{(i)})}$
则
$L(\theta)\ge B(\theta,\theta^{(i)})$
又
$L(\theta^{(i)})= B(\theta^{(i)},\theta^{(i)})$
因此我们可以使 $B(\theta,\theta^{(i)})$ 增大
$\theta^{(i+1)}=\argmax\limits_{\theta}B(\theta,\theta^{(i)})$