极大似然估计_极大似然估计和贝叶斯估计

最新推荐文章于 2023-09-14 19:55:01 发布

weixin_39860108

最新推荐文章于 2023-09-14 19:55:01 发布

阅读量245

点赞数

文章标签：极大似然估计

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_39860108/article/details/111347372

版权

极大似然估计（Maximum Likelihood Estimation，MLE）和贝叶斯估计（Bayesian Estimation）是统计推断中两种最常用的参数估计方法，二者在机器学习中的应用也十分广泛。本文将对这两种估计方法做一个详解。

考虑这样一个问题：总体

的概率密度函数为

，观测到一组样本

，需要估计参数

。下面我们将采用不同的估计方法来求解这个问题。

1、极大似然估计

极大似然估计是典型的频率学派观点，它的基本思想是：待估计参数

是客观存在的，只是未知而已，当

满足“

时，该组观测样本

更容易被观测到“，我们就说

是

的极大似然估计值。也即，估计值

使得事件发生的可能性最大。

下面给出极大似然估计的数学描述：

2、贝叶斯估计

贝叶斯估计是典型的贝叶斯学派观点，它的基本思想是：待估计参数

也是随机的，和一般随机变量没有本质区别，因此只能根据观测样本估计参数

的分布。

贝叶斯估计利用了贝叶斯公式，给出贝叶斯公式的数学描述：

下面给出贝叶斯估计的数学描述：

其中，

为参数

的先验分布（prior distribution），表示对参数

的主观认识，是非样本信息，

为参数

的后验分布（posterior distribution）。因此，贝叶斯估计可以看作是，在假定

服从

的先验分布前提下，根据样本信息去校正先验分布，得到后验分布

。由于后验分布是一个条件分布，通常我们取后验分布的期望作为参数的估计值。

2.1、最大后验估计

在贝叶斯估计中，如果我们采用极大似然估计的思想，考虑后验分布极大化而求解

，就变成了最大后验估计（Maximum A Posteriori estimation，MAP）：

由于

与

无关，因此简化了计算。

作为贝叶斯估计的一种近似解，MAP有其存在的价值，因为贝叶斯估计中后验分布的计算往往是非常棘手的；而且，MAP并非简单地回到极大似然估计，它依然利用了来自先验的信息，这些信息无法从观测样本获得。

对上面的式子稍作处理：

如果将机器学习结构风险中的正则化项对应为上式的

，那么带有正则化项的最大似然学习就可以被解释为MAP。当然，这并不是总是正确的，例如，有些正则化项可能不是一个概率分布的对数，还有些正则化项依赖于数据，当然也不会是一个先验概率分布。不过，MAP提供了一个直观的方法来设计复杂但可解释的正则化项，例如，更复杂的惩罚项可以通过混合高斯分布作为先验得到，而不是一个单独的高斯分布。

2.2、共轭先验

在贝叶斯估计中，如果选取先验分布

，使得后验分布

与

属于同一分布簇（即共轭分布），则称

为似然函数

的共轭先验。

共轭先验的选取有如下好处：a).符合直观，先验分布和后验分布应该是相同形式的；b).可以给出后验分布的解析形式；c).可以形成一个先验链，即现在的后验分布可以作为下一次计算的先验分布，如果形式相同，就可以形成一个链条。

常见的共轭先验有：Beta分布（二项分布）、Dirichlet分布（多项分布）。

很显然，共轭先验的选取很大程度上是基于数学理论的方便性，带有很强的主观色彩，而这也是饱受频率学派诟病的一点。频率学派认为，只有在先验分布有一种不依赖主观的意义，且能根据适当的理论或以往的经验决定时，才允许在统计推断中使用先验分布，否则就会丧失客观性。关于这些，读者可自行了解。

此文来自笔者对以前分享过的一个PPT的二次整理，内容略有删减，感兴趣的读者可以直接查看PPT。

参考文献

[1] http://blog.csdn.net/dyllove98/article/details/9385559

[2] http://blog.csdn.net/zouxy09/article/details/8537620

[3] （EM算法）The EM Algorithm

[4] EM算法存在的意义是什么？

[5] 数据挖掘十大算法----EM算法（最大期望算法） - 推酷

[6] http://blog.csdn.net/hechenghai/article/details/41896213

[7] 最大似然估计和EM算法的关系是什么？

[8] 期望最大化算法（EM算法）有什么缺陷？

[9] http://blog.csdn.net/lihaitao000/article/details/51894496

[10] 使用EM算法时的初值选择问题 - 计量经济学与统计软件 - 经管之家(原人大经济论坛)

[11] http://blog.csdn.net/wsj998689aa/article/details/46792543

[12] http://blog.csdn.net/manji_lee/article/details/41335307

[13] 混合高斯模型（Mixtures of Gaussians）和EM算法

[14] http://irwenqiang.iteye.com/blog/1552680

[15] 漫谈 Clustering (3): Gaussian Mixture Model

[16] 请问如何用数学方法证明K-means是EM算法的特例？

[17] http://blog.csdn.net/llp1992/article/details/47058109

[18] http://www.csdn.net/article/2012-07-03/2807073-k-means

[19] 《Deep Learning》（中译版）Ian Goodfellow等著

以上为本文的全部参考文献，对原作者表示感谢。

我的足迹

CSDN
GitHub

weixin_39860108

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
极大似然估计_极大似然估计和贝叶斯估计

极大似然估计（Maximum Likelihood Estimation，MLE）和贝叶斯估计（Bayesian Estimation）是统计推断中两种最常用的参数估计方法，二者在机器学习中的应用也十分广泛。本文将对这两种估计方法做一个详解。考虑这样一个问题：总体的概率密度函数为，观测到一组样本，需要估计参数。下面我们将采用不同的估计方法来求解这个问题。1、极大似然估计极大似然估计...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。