统计学习-EM算法简介
EM算法简介
本文将会介绍EM算法,EM算法又称为最大期望算法,EM算法的中文名称是Expectation-Maximization algorithm ,该算法是由不停迭代的期望步骤、最大化步骤反复交替形成的。
从本质上来说,EM算法不是一种数据挖掘方法或者真正的机器学习算法,它属于一种求解思路,或者是一种迭代的算法。该算法是建立在极大似然方法的基础上的,它本质上是解决一类含有隐变量的参数估计问题。
在普通的参数估计下,比如现在有一组欧洲人的身高数值,又假设这些欧洲人的身高数据符合正态分布,那么使用极大似然估计方法就可以估计出均值和标准差,从而刻画出整个欧洲人身高数据的分布,最终大致掌握欧洲人身高的分布情况。如果现在有两组欧洲人的身高数据,一组数据全部是女人的身高数据,另一组数据全部是男人身高的数据,那么依旧使用极大似然估计方法去分别估计两组数据对应的均值和标准差即可。但是现在把这两组数据进行混合以后,直接采用极大参数估计方法可能就不太好了,所以需要使用EM算法进行参数的估计。
根据上述的公式可以发现,对数极大似然是由观测变量X和隐变量Z的共同分布所构成的,而经过Jensen不等式的放缩后,可以将之前的式子转化为一个不等式,而不等式右侧的L函数就是我们要进行求解的函数,当寻找到L函数的极大值后,