em算法的通俗解释

比如你一位同学和一位猎人一起外出打猎,一只野兔从前方窜过。只听一声枪响,野兔应声到下,如果要你推测,这一发命中的子弹是谁打的?你就会想,只发一枪便打中,由于猎人命中的概率一般大于你那位同学命中的概率,从而推断出这一枪应该是猎人射中的。

一个袋子中总共有黑白两种颜色100个球,其中一种颜色90个,随机取出一个球,发现是黑球。那么是黑色球90个?还是白色球90个?随机抽取一个球,是黑色的,说明黑色抽中的概率最大,因此猜测90个的是黑色球。
这个例子所作的推断就体现了最大似然法的基本思想,就是概率最大的事件,最可能发生。

再举个射箭的例子,在《权力的游戏》中有个场景,老徒利死的时候,尸体放在穿上,需要弓箭手在岸边发射火箭引燃。但是当时的艾德慕·徒利公爵射了三箭都没中,布林登·徒利实在看不下去了,通过旗帜判断风向,一箭命中!
因此箭能否射中靶心,不仅跟弓箭手的瞄准能力有关,还跟外界的风向有关系。假设不考虑人的因素,但看风向…同样的瞄准和力度,风太大不行、太小也不行…那我们给风的大小设置一个值为θ。假设一名弓箭手射出了三只箭,分别是8环、6环、7环(即x1=8,x2=6,x3=7),当天风的大小为88。那么我们认为只有θ=88,发生上面事件的概率最大。
上面的这些例子是有完整数据的参数估计。

我们已经知道,极大似然估计用一句话概括就是:知道结果,反推条件θ。
极大似然估计的目标是求解实现结果的最佳参数θ,但极大似然估计需要面临的概率分布只有一个或者知道结果是通过哪个概率分布实现的,只不过你不知道这个概率分布的参数。

但现在我们让情况复杂一点,比如这100个男生和100个女生混在一起了。我们拥有200个人的身高数据,却不知道这200个人每一个是男生还是女生,此时的男女性别就像一个隐变量。就是不完整数据的参数估计。

这时候情况就有点尴尬,因为通常来说,我们只有知道了精确的男女身高的正态分布参数我们才能知道每一个人更有可能是男生还是女生。反过来,我们只有知道了每个人是男生还是女生才能尽可能准确地估计男女各自身高的正态分布的参数。

而EM算法就是为了解决“极大似然估计”这种更复杂而存在的。
EM算法的思想就是:

1、给θ自主规定个初值
2、根据给定观测数据和当前的参数θ,求未观测数据z的条件概率分布的期望;
3、上一步中z已经求出来了,于是根据极大似然估计求最优的θ’;
4、因为第二步和第三步的结果可能不是最优的,所以重复第二步和第三步,直到收敛(重复多次匀匀的过程,直到两个碟子中菜的量大致一样)。
而上面的第二步被称作E步(求期望),第三步被称作M步(求极大化),从而不断的E、M。

参考
https://www.cnblogs.com/xing901022/p/8418894.html
https://blog.csdn.net/v_july_v/article/details/81708386

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值