EM算法总结

最新推荐文章于 2022-08-15 20:49:03 发布

风吹草地现牛羊的马

最新推荐文章于 2022-08-15 20:49:03 发布

阅读量524

点赞数

分类专栏：主题模型（topic model）机器学习变分贝叶斯系列

本文链接：https://blog.csdn.net/mch2869253130/article/details/108919874

版权

机器学习同时被 3 个专栏收录

97 篇文章 5 订阅

订阅专栏

变分贝叶斯系列

22 篇文章 12 订阅

订阅专栏

主题模型（topic model）

11 篇文章 1 订阅

订阅专栏

本文需要对 $E M$ 算法有一定的了解。若对 $E M$ 算法之前没有了解过，不建议看本文。这里给出常用的推导EM算法的案例：高斯混合算法（GMM）与最大期望算法（EM）的推导

假设隐变量为 $Z$ ，可观测变量为 $X$ ，要求解的未知参数为 $\theta$ 。
在EM算法框架中， $(X, Z)$ 称为完全数据。EM算法其实还是为了求解最大似然解，但是并不是最大似然的解析解，而是近似解。所以我们还是要推导出未知参数 $\theta$ 的最大似然形式。

EM算法推导方式（一）

第一种方式使用 $K L$ 散度推导。最终形式是这样：
$logp(X;\theta) = ELBO+D_{KL}(q||p)$

完全数据的联合概率分布：
$\tag{1}p(X,Z;\theta) = p(X;\theta)p(Z|X;\theta)$
由（1）式可得未知参数 $\theta$ 的似然函数为：
$\begin{aligned} \tag{2}logp(X;\theta) = & logp(X,Z;\theta)-logp(Z|X;\theta) \\ = & logp(X,Z;\theta)-logq(Z)-[logp(Z|X;\theta)-logq(Z)] \\ = & log{p(X,Z;\theta) \over q(Z)} - log{p(Z|X;\theta) \over q(Z)} \end{aligned}$
注意在上式第二行引入了关于 $Z 的一个分布 q (Z)$ 。
同时在（2）式两边乘以 $q (Z)$ ，并对 $Z$ 积分。
$左边=\int_{Z}q(Z)logp(X;\theta)dZ = logp(X;\theta)$
$\begin{aligned} 右边= & \int_{Z}q(Z)log{p(X,Z;\theta) \over q(Z)}-q(Z) log{p(Z|X;\theta) \over q(Z)}dZ \\ = & \int_{Z}q(Z)log{p(X,Z;\theta) \over q(Z)}dZ -\int_{Z}q(Z) log{p(Z|X;\theta) \over q(Z)}dZ \end{aligned}$
上式中，第二项连同负号式KL散度的形式，恒大于等于0。第一项常称作ELBO，所以我们可以得到
$logp(X;\theta) = ELBO +D_{KL}[q(Z||p(Z|X;\theta))]$
由于第二项KL散度项恒大于等于0，所以有下式成立：
$\tag{3} logp(X;\theta) >= \int_{Z}q(Z)log{p(X,Z;\theta) \over q(Z)}dZ = E_{q(Z)}[log{p(X,Z;\theta) \over q(Z)}]$
当分布 $p(Z|X;\theta)$ 的时候取等号。

令 $\int_{Z}q(Z)log{p(X,Z;\theta) \over q(Z)}dZ$ 。 $E L B O$ 函数是最大似然 $\theta)$ 的紧下界，最大化 $\theta)$ ，只需要最大化 $E L B O$ 函数即可。
$\begin{aligned} \tag{4} \hat{\theta} = & argmax_{\theta}EBLO \\ = & argmax_{\theta}\int_{Z}q(Z)log{p(X,Z;\theta) \over q(Z)}dZ \\ = & argmax_{\theta} \int_{Z}p(Z|X;\theta^{old})log{p(X,Z;\theta) \over p(Z|X;\theta^{old})}dZ \\ = & argmax_{\theta} \int_{Z}p(Z|X;\theta^{old})log{p(X,Z;\theta)} dZ -\int_{Z}p(Z|X;\theta^{old})logp(Z|X;\theta^{old})dZ \\ = & argmax_{\theta}\int_{Z}p(Z|X;\theta^{old})log{p(X,Z;\theta)} dZ \end{aligned}$
在（4）式中第3行引入了 $Z$ 的后验分布，因为 $q(Z)=p(Z|X;\theta)$ 时（3）式取等号。倒数第二行的第二项是与 $\theta$ 无关的，所以在argmax操作中可以省去。

最终，求解（4）式得到的 $\hat{\theta}$ 就是使 $logp(X;\theta)$ 最大的 $\theta$ 。（4）式最后的积分部分也可以记为 $E_{p(Z|X;\theta^{old})}[logp(X,Z;\theta)]$ 。

仔细观察（4）式，我们引入了 $Z$ 的后验分布 $p(Z|X;\theta^{old})$ ，所以我们要先计算出 $p(Z|X;\theta^{old})$ 。通常 $Z$ 的后验的计算是通过贝叶斯公式来完成的。也就是：
$p(Z|X;\theta^{old}) = {p(Z,X;\theta^{old}) \over p(X;\theta^{old})}$
在首次进行计算时， $\theta^{old}$ 是随机初始化的。

下面总结EM算法框架：

随机初始化未知参数，初始化值记为 $\theta^{old}$
E-STEP:
- 求隐变量 $Z$ 的后验： $p(Z|X;\theta^{old})$
- 求完全数据 $(X, Z)$ 的对数似然关于 $Z$ 的后验的期望： $E_{p(Z|X;\theta^{old})}[logp(X,Z;\theta)]$
M-STEP:
最大化期望： $E_{p(Z|X;\theta^{old})}[logp(X,Z;\theta)]$ ，也就是 $\hat{\theta}=argmax_{\theta} E_{p(Z|X;\theta^{old})}[logp(X,Z;\theta)]$
令 $\theta^{old} = \hat{\theta}$ ，并开启下一轮迭代。

重复上面的2，3步，直到满足收敛条件。这样就求得了最后的参数 $\theta$ 。最后还要提醒一下，这样求得的 $\theta$ 其实还是根据最大似然的方法得到的近似解。另外EM算法不能保证得到全局最优解，能保证得到局部最优。

EM算法推导（二）

第二种方法使用 $J e n s e n$ 不等式来推导。
$\begin{aligned} \tag{5} logp(X;\theta) = & log\int_Z p(X,Z;\theta)dZ \\ = & log \int_z {p(X,Z;\theta)q(Z) \over q(Z)}dZ \\ = & log E_{q(Z)}[{p(X,Z;\theta) \over q(Z)}] \\ \ge & E_{q(Z)}[log{p(X,Z;\theta) \over q(Z)}] \\ \end{aligned}$

这样我们就直接推导出了ELBO，那么 $q (Z)$ 等于什么呢？
（5）式中用到了 $J e n s e n$ 不等式，取等式的条件是 ${p(X,Z;\theta) \over q(Z)}=C，C是一个常数$ 。
那么有 $\tag{6}q(Z)={1 \over C}p(X,Z;\theta)$ ，
两边同时对 $Z$ 积分得到 $\over C}p(X;\theta)$
也就是 $C=p(X;\theta)$ ，带入（6）式得：
${p(X,Z;\theta) \over p(X;\theta)} = p(Z|X;\theta)$
所以（5）取等号的条件和（3）式取等号的条件一样。其他部分和第一种推导方式一样，这里不再赘述。

风吹草地现牛羊的马

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
EM算法总结

本文需要对EMEMEM算法有一定的了解。若对EMEMEM算法之前没有了解过，不建议看本文。这里给出常用的推导EM算法的案例：高斯混合算法（GMM）与最大期望算法（EM）的推导假设隐变量为ZZZ，可观测变量为XXX，要求解的未知参数为θ\thetaθ。在EM算法框架中，(X,Z)(X,Z)(X,Z)称为完全数据。EM算法其实还是为了求解最大似然解，但是并不是最大似然的解析解，而是近似解。所以我们还是要推导出未知参数θ\thetaθ的最大似然形式。完全数据的联合概率分布：p(X,Z;θ)=p(X;θ)p
复制链接

扫一扫

专栏目录