EM 算法是求参数极大似然估计的一种方法,它可以从非完整数据集中对参数进行估计,是一种非常简单实用的学习算法。这种方法可以广泛地应用于处理缺损数据、截尾数据以及带有噪声等所谓的不完全数据,可以具体来说,我们可以利用EM算法来填充样本中的缺失数据、发现隐藏变量的值、估计HMM中的参数、估计有限混合分布中的参数以及可以进行无监督聚类等等。
贴相关几个好文章:从最大似然到EM算法浅解
混合高斯模型(Mixtures of Gaussians)和EM算法
关于算法的原理推导上面文章介绍的很详细了,在这里再白话一下个人认识的关键几点:
(1)我们要估计的是什么?估计的是未知的参数,谁的参数?你认为你的数据符合的模型的参数,那么就需要认识到我们的数据符合什么模型。看到许多用的都是数据符合高斯(混合)模型,公式也就是正态分布的那个公式:
P(x)=1