极大似然估计(Maximum Likelihood Estimation,MLE)和贝叶斯估计(Bayesian Estimation)是统计推断中两种最常用的参数估计方法,二者在机器学习中的应用也十分广泛。本文将对这两种估计方法做一个详解。
考虑这样一个问题:总体
1、极大似然估计
极大似然估计是典型的频率学派观点,它的基本思想是:待估计参数
下面给出极大似然估计的数学描述:
2、贝叶斯估计
贝叶斯估计是典型的贝叶斯学派观点,它的基本思想是:待估计参数
贝叶斯估计利用了贝叶斯公式,给出贝叶斯公式的数学描述:
下面给出贝叶斯估计的数学描述:
其中,
2.1、最大后验估计
在贝叶斯估计中,如果我们采用极大似然估计的思想,考虑后验分布极大化而求解
由于
作为贝叶斯估计的一种近似解,MAP有其存在的价值,因为贝叶斯估计中后验分布的计算往往是非常棘手的;而且,MAP并非简单地回到极大似然估计,它依然利用了来自先验的信息,这些信息无法从观测样本获得。
对上面的式子稍作处理:
如果将机器学习结构风险中的正则化项对应为上式的
2.2、共轭先验
在贝叶斯估计中,如果选取先验分布
共轭先验的选取有如下好处:a).符合直观,先验分布和后验分布应该是相同形式的;b).可以给出后验分布的解析形式;c).可以形成一个先验链,即现在的后验分布可以作为下一次计算的先验分布,如果形式相同,就可以形成一个链条。
常见的共轭先验有:Beta分布(二项分布)、Dirichlet分布(多项分布)。
很显然,共轭先验的选取很大程度上是基于数学理论的方便性,带有很强的主观色彩,而这也是饱受频率学派诟病的一点。频率学派认为,只有在先验分布有一种不依赖主观的意义,且能根据适当的理论或以往的经验决定时,才允许在统计推断中使用先验分布,否则就会丧失客观性。关于这些,读者可自行了解。
此文来自笔者对以前分享过的一个PPT的二次整理,内容略有删减,感兴趣的读者可以直接查看PPT。
参考文献
[1] http://blog.csdn.net/dyllove98/article/details/9385559
[2] http://blog.csdn.net/zouxy09/article/details/8537620
[3] (EM算法)The EM Algorithm
[4] EM算法存在的意义是什么?
[5] 数据挖掘十大算法----EM算法(最大期望算法) - 推酷
[6] http://blog.csdn.net/hechenghai/article/details/41896213
[7] 最大似然估计和EM算法的关系是什么?
[8] 期望最大化算法(EM算法)有什么缺陷?
[9] http://blog.csdn.net/lihaitao000/article/details/51894496
[10] 使用EM算法时的初值选择问题 - 计量经济学与统计软件 - 经管之家(原人大经济论坛)
[11] http://blog.csdn.net/wsj998689aa/article/details/46792543
[12] http://blog.csdn.net/manji_lee/article/details/41335307
[13] 混合高斯模型(Mixtures of Gaussians)和EM算法
[14] http://irwenqiang.iteye.com/blog/1552680
[15] 漫谈 Clustering (3): Gaussian Mixture Model
[16] 请问如何用数学方法证明K-means是EM算法的特例?
[17] http://blog.csdn.net/llp1992/article/details/47058109
[18] http://www.csdn.net/article/2012-07-03/2807073-k-means
[19] 《Deep Learning》(中译版)Ian Goodfellow等著
以上为本文的全部参考文献,对原作者表示感谢。
我的足迹
- CSDN
- GitHub