提出:有时候任务中含有一些不能观察到的隐含变量,样本的产生和隐含变量有关,而求模型的参数时一般用最大似然估计,由于隐变量的存在,所以对似然函数参数求导是求不出来的,这时采用EM算法来求导。
总结:是一种迭代算法,用于含有隐变量的概率模型参数的极大似然估计。两个步骤交替计算:
E步:利用当前估计的参数值,求出在该参数下隐含变量的条件概率值(计算对数似然的期望值);
M步:结合E步求出的隐含变量条件概率,求出似然函数下界函数的最大值(寻找能使E步产生的似然期望最大化的参数值。)然后,新得到的参数值重新被用于E步.....直到收敛到局部最优解。(note:每次迭代实际在求Q函数及其极大,即每次迭代使似然函数增大或达到局部极值。)
通俗来讲:就是对于一个含有隐变量的概率模型,目标是极大化观测数据Y关于参数theta的对数似然函数。
优点:简单性和普适性,可看作是一种非梯度优化方法(解决梯度下降等优化方法的缺陷:求和的项数将随 着隐变量的数目以指数级上升,会给梯度计算带来麻烦)