EM算法-CSDN博客

一、EM算法介绍

我们经常会从样本观察数据中，找出样本的模型参数。最常用的方法就是极大化模型分布的对数似然函数。（最大似然估计：利用已知的样本结果，反推最有可能导致这样结果的一组参数）但是在一些情况下，我们得到的观察数据有未观察到的隐含数据，此时我们未知的有隐含数据和模型参数，因而无法直接用极大化对数似然函数得到模型分布的参数。用EM算法可以解决。

EM算法是一种迭代算法，用于含有隐变量的概率模型参数的极大似然估计，或极大后验概率估计。

EM算法的每次迭代由两步组成：E步，求期望；M步，求极大。所以被称为期望极大算法。

EM算法解决这个的思路是使用启发式的迭代方法，既然我们无法直接求出模型分布参数，那么我们可以先猜想隐含数据（EM算法的E步），接着基于观察数据和猜测的隐含数据一起来极大化对数似然，求解我们的模型参数（EM算法的M步)。由于我们之前的隐藏数据是猜测的，所以此时得到的模型参数一般还不是我们想要的结果。不过没关系，我们基于当前得到的模型参数，继续猜测隐含数据（EM算法的E步），然后继续极大化对数似然，求解我们的模型参数（EM算法的M步)。以此类推，不断的迭代下去，直到模型分布参数基本无变化，算法收敛，找到合适的模型参数。

一个最直观了解EM算法思路的是K-Means算法：在K-Means聚类时，每个聚类簇的质心是隐含数据。我们会假设K个初始化质心，即EM算法的E步；然后计算得到每个样本最近的质心，并把样本聚类到最近的这个质心，即EM算法的M步。重复这个E步和M步，直到质心不再变化为止，这样就完成了K-Means聚类。

二、EM算法推导

1、Jensen不等式

2、极大似然估计法估计参数

（1）极大似然估计思想

总结起来，最大似然估计的目的就是：利用已知的样本结果，反推最有可能（最大概率）导致这样结果的参数值。极大似然估计提供了一种给定观察数据来评估模型参数的方法，即：“模型已定，参数未知”。通过若干次试验，观察其结果，利用试验结果得到某个参数值能够使样本出现的概率为最大，则称为极大似然估计。

（2）求解极大似然函数

（3）求最大似然函数估计值的一般步骤

3、求解随机变量的期望

4、EM算法推导

我们的似然函数为：

上面似然函数L(Θ)式中，即式（1），是根据联合概率密度下某个变量的边缘密度函数求解的（这里把z当作是随机变量）。对每一个样本 i 的所有可能类别 z 求联合概率密度函数和，也就得到随机变量x的边缘概率密度。由于对式（1）直接求导非常困难，所以将其分子分母都乘以一个相等的函数Qz，转换为式（2）。而在式（2）变为式（3）的过程，采用的是上面提到的Jensen不等式: