问题
假设男、女身高都服从正态分布,我们通过抽样调查,利用最大似然估计,很容易估计出男、女群体的身高平均值。
如果出现了意外,我们把抽样信息中男女的标记给弄丢了,男女身高数据混在了一起,那么还有没有办法把男女身高的平均值分别求出来呢?
为便于理解,我们给出抽样数据:
男人身高(cm):170,180,180,190
女人身高(cm):150,160,160,170
数据混在一起后,列表如下:
x(身高) | M(男人数量) | F(女人数量) |
---|---|---|
150 | 0 | 1 |
160 | 0 | 1 |
160 | 0 | 1 |
170 | 0 | 1 |
170 | 1 | 0 |
180 | 1 | 0 |
180 | 1 | 0 |
190 | 1 | 0 |
当然,表中的M 、F列是身高对应的人数,在男女身高数据弄混以后就变成未知数了,我把它们列出来是为了方便理解后面的计算方法。
EM求解方法
假设男、女身高均值分别为
μ1
、
μ2
,这两个数的初值可以赋予任意两个不同的随机数,例如我们令初值为:
μ1=190,μ2=150
根据这个初值,我们来重新估计每个 xi 对应的 Mi 和 Fi 的期望值。这里,我们可以把 Mi 和 Fi 理解为 xi 对应男人和女人的人数,取值介于0~1之间。因为两类数据分布会产生重叠,因此,对于同一个身高数据,按照密度函数来计算分配人数比列。这里假设男人和女人的概率密度函数分别为 pm 和 pf ,同一个身高数据 xi 对应的男、女人数计算如下:
Mi=pm(xi)pm(xi)+pf(xi)Fi=pf(xi)pm(xi)+pf(x1)
接下来,我们要更新 μ1 、 μ2 的值了,计算方法就是总身高除以总人数,算式如下:
μ1=M1x1+...+M8x8M1+...+M8μ2=F1x1+...+F8x8F1+...+F8
这里可以把 Mi 和 Fi 理解为 xi 对应男人和女人的人数,取值介于0~1之间。
看到这里,我服气得简直要跪了。因为我特地准备两个170cm的身高,这个身高男女各一个数据,我想看看EM如何处理。之前我是用K均值聚类算法的思维来看这个问题,没想到EM给我来了一个“模糊数学”的处理技巧,把这个问题巧妙化解了。
数据170对应男、女人数都是0.5,因为有两个170,所以,男人和女人每组仍然能分配一个,这正好恢复了男女数据没混和以前的样子。
接下来没啥悬念了,重复迭代上面的过程,直到 μ1 、 μ2 收敛为止。如果 Mi 和 Fi 最终确定了,相当于把抽样数据区分开了,求分布的其他参数也变得毫无悬念了。
EM方法,作为十大机器学习经典算法之一,真的太伟大了!