简析EM算法（最大期望算法）

最新推荐文章于 2023-09-24 19:40:02 发布

许野平

最新推荐文章于 2023-09-24 19:40:02 发布

阅读量8.3k

点赞数 3

CC 4.0 BY-SA版权

分类专栏：机器学习程序猿的那点数学文章标签：算法最大期望算法 EM算法

本文链接：https://blog.csdn.net/quicmous/article/details/52154527

机器学习同时被 2 个专栏收录

52 篇文章

订阅专栏

程序猿的那点数学

17 篇文章

订阅专栏

本文通过一个具体的例子，介绍了如何使用EM算法解决混合正态分布数据下的参数估计问题，展示了该算法的强大之处。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

问题

　　假设男、女身高都服从正态分布，我们通过抽样调查，利用最大似然估计，很容易估计出男、女群体的身高平均值。
　　
　　如果出现了意外，我们把抽样信息中男女的标记给弄丢了，男女身高数据混在了一起，那么还有没有办法把男女身高的平均值分别求出来呢？
　　
　　为便于理解，我们给出抽样数据：
　　
　　男人身高(cm)：170,180,180,190
　　女人身高(cm)：150,160,160,170
　　
　　数据混在一起后，列表如下：

x（身高）	M（男人数量）	F（女人数量）
150	0	1
160	0	1
160	0	1
170	0	1
170	1	0
180	1	0
180	1	0
190	1	0

　　当然，表中的M 、F列是身高对应的人数，在男女身高数据弄混以后就变成未知数了，我把它们列出来是为了方便理解后面的计算方法。
　　

EM求解方法

　　假设男、女身高均值分别为 $\mu_1$ 、 $\mu_2$ ，这两个数的初值可以赋予任意两个不同的随机数，例如我们令初值为：

μ 1 = 190, μ 2 = 150

$\mu_1=190,\mu_2=150$
　　根据这个初值，我们来重新估计每个

xi $x_i$ 对应的

Mi $M_i$ 和

Fi $F_i$ 的期望值。这里，我们可以把

Mi $M_i$ 和

Fi $F_i$ 理解为

xi $x_i$ 对应男人和女人的人数，取值介于０～１之间。因为两类数据分布会产生重叠，因此，对于同一个身高数据，按照密度函数来计算分配人数比列。这里假设男人和女人的概率密度函数分别为

pm $p_m$ 和

pf $p_f$ ，同一个身高数据

xi $x_i$ 对应的男、女人数计算如下：
　　

M i = p m ( x i ) p m ( x i ) + p f ( x i ) F i = p f ( x i ) p m ( x i ) + p f ( x 1 )

$\begin{matrix} M_i=\frac{p_m(x_i)}{p_m(x_i)+p_f(x_i)}\\ F_i=\frac{p_f(x_i)}{p_m(x_i)+p_f(x_1)}\\ \end{matrix}$
　　接下来，我们要更新

μ1 $\mu_1$ 、

μ2 $\mu_2$ 的值了，计算方法就是总身高除以总人数，算式如下：

μ 1 = M 1 x 1 + . . . + M 8 x 8 M 1 + . . . + M 8 μ 2 = F 1 x 1 + . . . + F 8 x 8 F 1 + . . . + F 8

$\mu_1=\frac{M_1x_1+...+M_8x_8}{M_1+...+M_8}\\ \mu_2=\frac{F_1x_1+...+F_8x_8}{F_1+...+F_8}$
　　这里可以把

Mi $M_i$ 和

Fi $F_i$ 理解为

xi $x_i$ 对应男人和女人的人数，取值介于0~1之间。
　　
　　看到这里，我服气得简直要跪了。因为我特地准备两个170cm的身高，这个身高男女各一个数据，我想看看EM如何处理。之前我是用K均值聚类算法的思维来看这个问题，没想到EM给我来了一个“模糊数学”的处理技巧，把这个问题巧妙化解了。
　　
　　数据170对应男、女人数都是0.5，因为有两个170，所以，男人和女人每组仍然能分配一个，这正好恢复了男女数据没混和以前的样子。
　　
　　接下来没啥悬念了，重复迭代上面的过程，直到

μ1 $\mu_1$ 、

μ2 $\mu_2$ 收敛为止。如果

Mi $M_i$ 和

Fi $F_i$ 最终确定了，相当于把抽样数据区分开了，求分布的其他参数也变得毫无悬念了。

　　EM方法，作为十大机器学习经典算法之一，真的太伟大了！