ESL-chapter8-EM算法2

最新推荐文章于 2021-01-06 00:50:34 发布

果然好吃

最新推荐文章于 2021-01-06 00:50:34 发布

阅读量723

点赞数

本文链接：https://blog.csdn.net/u010198460/article/details/38140607

版权

这节介绍的EM算法和ESL略有不同，我觉得ESL在这节讲的并不好，因此采用pattern recognition and machine learning9.3节的介绍过程。EM算法的目标是找到带有隐变量模型的最大似然解。令观测到的数据集为X，隐变量为Z。（和ESL上的定义不同），模型参数为theta。则模型的对数似然函数为

当Z为连续隐变量时，上面的累加和变为积分。由于这个累加和（或积分）在ln中，导致难以计算边际分布p(X|theta)的对数似然。现在称{X，Z}为完全数据，则X为不完全数据。我们假定当隐变量的取值已知时，对数似然函数P(X,Z|theta)可解。但是现在我们并不知道Z的取值。手上现有的条件是当X,theta已知时的Z的后验分布P(Z|X,theta)。

下面是EM算法的关键：由于我们并不知道完全数据，那么我们就采用完全数据的期望值。而这个期望值是基于Z的后验分布P(Z|X,theta)计算出来的。这就是EM算法中的E步，在M步，再估值theta使这个期望最大化。这个theta再代入E步，依次循环，直到收敛。E步期望的计算方式如下：

注意看等号的右边，累加和的里面有两项，一项是P(Z|X,theta(old))，另一项是ln(p(X,Z|theta))。P(Z|X,theta(old))是依据上一轮的theta计算Z的后验分布，而ln(p(X,Z|theta))中的theta是一个参数值（这很关键，千万不要把theta(old)代入这个似然函数中）。前一项是Z的概率，后一项是完全数据（X，Z）的对数似然函数。两者相乘的累加和就是完全数据（X，Z）的对数似然函数的期望值。准确的说是一个期望函数（因为里面有一个未知的参数theta）。

M步的计算如下：