简析EM算法(最大期望算法)

问题

  假设男、女身高都服从正态分布,我们通过抽样调查,利用最大似然估计,很容易估计出男、女群体的身高平均值。
  
  如果出现了意外,我们把抽样信息中男女的标记给弄丢了,男女身高数据混在了一起,那么还有没有办法把男女身高的平均值分别求出来呢?
  
  为便于理解,我们给出抽样数据:
  
  男人身高(cm):170,180,180,190
  女人身高(cm):150,160,160,170
  
  数据混在一起后,列表如下:

x(身高)M(男人数量)F(女人数量)
15001
16001
16001
17001
17010
18010
18010
19010

  当然,表中的M 、F列是身高对应的人数,在男女身高数据弄混以后就变成未知数了,我把它们列出来是为了方便理解后面的计算方法。
  

EM求解方法

  假设男、女身高均值分别为 μ1 μ2 ,这两个数的初值可以赋予任意两个不同的随机数,例如我们令初值为:

μ1=190,μ2=150

  根据这个初值,我们来重新估计每个 xi 对应的 Mi Fi 的期望值。这里,我们可以把 Mi Fi 理解为 xi 对应男人和女人的人数,取值介于0~1之间。因为两类数据分布会产生重叠,因此,对于同一个身高数据,按照密度函数来计算分配人数比列。这里假设男人和女人的概率密度函数分别为 pm pf ,同一个身高数据 xi 对应的男、女人数计算如下:
  
Mi=pm(xi)pm(xi)+pf(xi)Fi=pf(xi)pm(xi)+pf(x1)

  接下来,我们要更新 μ1 μ2 的值了,计算方法就是总身高除以总人数,算式如下:
μ1=M1x1+...+M8x8M1+...+M8μ2=F1x1+...+F8x8F1+...+F8

  这里可以把 Mi Fi 理解为 xi 对应男人和女人的人数,取值介于0~1之间。
  
  看到这里,我服气得简直要跪了。因为我特地准备两个170cm的身高,这个身高男女各一个数据,我想看看EM如何处理。之前我是用K均值聚类算法的思维来看这个问题,没想到EM给我来了一个“模糊数学”的处理技巧,把这个问题巧妙化解了。
  
  数据170对应男、女人数都是0.5,因为有两个170,所以,男人和女人每组仍然能分配一个,这正好恢复了男女数据没混和以前的样子。
  
  接下来没啥悬念了,重复迭代上面的过程,直到 μ1 μ2 收敛为止。如果 Mi Fi 最终确定了,相当于把抽样数据区分开了,求分布的其他参数也变得毫无悬念了。

  EM方法,作为十大机器学习经典算法之一,真的太伟大了!
  

评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

许野平

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值