极大似然估计、极大后验估计&EM

极大似然估计(MLE,Maximum Likelihood Estimation)

概率模型的训练过程就是参数估计的过程,最大似然估计提供了一种给定观察数据来评估模型参数的方法,即:“模型已定,参数未知”。
假设:所有的采样都是服从独立同分布;

由上可知最大似然估计的一般求解过程:

  1. 写出似然函数;
  2. 对似然函数取对数,并整理;
  3. 求导数 ;
  4. 解似然方程

极大似然估计,只是一种概率论在统计学的应用,它是参数估计的方法之一。最大似然估计是建立在这样的思想之上:已知某个参数能使这个样本出现的概率最大,我们当然不会再去选择其他小概率的样本,所以干脆就把这个参数作为估计的真实值。
 

极大后验估计(MAP,Maximum a Posteriori)

最大似然估计只考虑某个模型能产生某个给定观察序列的概率,或者说MLE中认为各个模型出现的概率是均匀的,即该概率为一个固定值。MAP与MLE最大区别是MAP中加入了模型本身的概率分布,考虑到可以产生该观察序列模型的出现概率。

 

EM算法(Expectation-Maximization)

EM算法早有耳闻,但是囿于各式各样的原因一直都没有进行深入的学习与分析,今天趁着样本量资料学习-极大似然估计-极大后验估计,顺便把EM算法部分章节学习了,这种查缺补漏的感觉很好。

当我们在解决实际的工程问题时,很难保证说我们可以收集到所有的特征量值,对这些缺失的变量(隐变量/latent variable)进行合理的期望预测;基于已有的变量值与隐变量的预测值,对模型通过极大似然估计得到最优模型;通过已经得到的模型来重新预测隐变量,循环往复知道到达算法设定的阈值。

EM算法有很多的应用,最广泛的就是GMM混合高斯模型、聚类、HMM等等
证明链接可以见:大神写的证明链接


EM算法另外一种理解:坐标上升法(Coordinate ascent)

图中的直线式迭代优化的路径,可以看到每一步都会向最优值前进一步,而且前进路线是平行于坐标轴的,因为每一步只优化一个变量。 这犹如在x-y坐标系中找一个曲线的极值,然而曲线函数不能直接求导,因此什么梯度下降方法就不适用了。但固定一个变量后,另外一个可以通过求导得到,因此可以使用坐标上升法,一次固定一个变量,对另外的求极值,最后逐步逼近极值。对应到EM上,E步:固定θ,优化Q;M步:固定Q,优化θ;交替将极值推向最大。


如果将样本看作观察值,潜在类别看作是隐藏变量,那么聚类问题也就是参数估计问题。只不过聚类问题中参数分为隐含类别变量和其他参数,这犹如在x-y坐标系中找一个曲线的极值,然而曲线函数不能直接求导,因此什么梯度下降方法就不适用了。但固定一个变量后,另外一个可以通过求导得到,因此可以使用坐标上升法,一次固定一个变量,对另外的求极值,最后逐步逼近极值。对应到EM上,E步估计隐含变量,M步估计其他参数,交替将极值推向最大。EM中还有“硬”指定和“软”指定的概念,“软”指定看似更为合理,但计算量要大,“硬”指定在某些场合如K-means中更为实用(要是保持一个样本点到其他所有中心的概率,就会很麻烦)。
另外,EM的收敛性证明方法确实很牛,能够利用log的凹函数性质,还能够想到利用创造下界,拉平函数下界,优化下界的方法来逐步逼近极大值。而且每一步迭代都能保证是单调的。最重要的是证明的数学公式非常精妙,硬是分子分母都乘以z的概率变成期望来套上Jensen不等式,前人都是怎么想到的。

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值