一,最大似然估计与隐变量
期望值最大化算法是用来对包含隐变量的样本点的分布函数的参数估计方法。在参数估计中常常通过最大似然函数进行估计,由于隐变量的存在,不能直接求解这个最大似然函数,期望值最大化算法就是将这个最大似然函数的求解问题转化为求解其下界的最大值的问题,通过一个求隐变量的分布的“期望值”步骤和一个求似然函数最大化的“最大值”步骤完成。
假如有一批训练样本Xi (i=1,2,..I),这批样本服从参数为 \theta 的分布,要估计 \theta的值,可以通过求解如下似然函数的最大值进行:
(1)
如果Xi的分布函数仅仅依赖于\theta, 就可以写出 p(x|theda)的表达式,这个最优化问题可以直接求解。
现在的情况是Xi的分布函数不仅依赖于\theta,还依赖于另一个变量h, 每一个样本Xi都对应着h的一个值,h本身服从一个未知的分布。实际上 x和h的联合分布是以theta作为参数的,而p(x|theda)是这个联合分布的边缘分布: