EM的意思是“Expectation Maximization”,具体方法为:
- 先设定男生和女生的身高分布参数(初始值),例如男生的身高分布为 �(�1=172,�12=52) , 女生的身高分布为 �(�2=162,�22=52) ,当然了,刚开始肯定没那么准;
- 然后计算出每个人更可能属于第一个还是第二个正态分布中的(例如,这个人的身高是180,那很明显,他极大可能属于男生),这个是属于Expectation 一步;
- 我们已经大概地按上面的方法将这 200 个人分为男生和女生两部分,我们就可以根据之前说的极大似然估计分别对男生和女生的身高分布参数进行估计(这不变成了极大似然估计了吗?极大即为Maximization)这步称为 Maximization;
- 然后,当我们更新这两个分布的时候,每一个学生属于女生还是男生的概率又变了,那么我们就再需要调整E步;
- ……如此往复,直到参数基本不再发生变化或满足结束条件为止。