最大似然估计_最大似然估计与最大后验估计联系

最新推荐文章于 2024-06-14 10:32:25 发布

weixin_39972768

最新推荐文章于 2024-06-14 10:32:25 发布

阅读量201

点赞数

文章标签：最大似然估计

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_39972768/article/details/111617455

版权

1 引言

参数估计的目的是决定变量之间相互关联的量化关系。

常用的参数估计方法包括最大似然估计法、最大后验估计、期望最大化法 (EM) 和贝叶斯估计方法。

2 先验概率

在观测数据前，我们将 θ 的已知知识表示成先验概率分布，p(θ) 我们通常称为先验。

一般而言，在机器学习实践的时候，会选择一个相当宽泛的先验分布(这个先验分布通常是高熵的分布，比如均匀分布), 以观测到任何数据前参数 θ 的高度不确定性。

3 后验概率

假设我们有一组数据样本 x(1), ..., x(m), 通过贝叶斯公式，用数据似然分布 p(x(1), ..., x(m)|θ) 和先验分布，这样就可以计算对 θ 的后验概率的计算：

在贝叶斯估计常见的情景下，先验分布开始是相对均匀的分布或高熵的高斯分布，观测数据通常会使后验的熵下降，并集中在参数的几个可能性很高的值。

4 最大似然估计与贝叶斯估计区别

简单地把两者联系起来：假设先验分布是均匀分布，取后验概率最大，就能从贝叶斯估计得到极大似然估计。

来自《统计学习方法》

这里偷了懒，直接把李航书中的图，拍照拿过来了，这里面的D指的就是已知数据X。这张图可以很好的解释最大似然估计与贝叶斯估计的区别。

最大似然估计方法预测时，使用 θ 的点估计；而贝叶斯估计使用 θ 的全分布。简单的说，贝叶斯方法估计是一种参数的区间估计，即参数在一个区间上的估计。

例如，在观测到 m个样本后，下一个数据样本 x(m+1) 的预测分布如下：

不像似然函数中 θ 只有一个值，贝叶斯估计 θ 有很多值，贝叶斯估计中不同的 θ 就会有很多的 p(x(m+1)|θ)，要确定一个 x 值，需要消除掉不确定的θ 对 x 的影响。

根据前面 m 个样本预测下一个值，就可以用 θ 的后验概率加权，对所有 p(x(m+1)|θ) 求平均，就可以消除掉不确定的 θ 对 x(m+1) 的影响。

当训练数据很有限时，贝叶斯估计通常泛化得更好，但是当训练样本数目很大时，通常会有很大的计算代价。

5 最大后验估计(MAP)

我们说贝叶斯估计是一种参数的区间估计，即参数在一个区间上的分布。如果希望得到一个最优的参数值(即点估计)，可以使用最大后验估计。

最大后验估计是指最优参数为后验分布 p(θ|X) 中概率密度最高的参数：

右边 log p(x|θ) 对应着标准的对数似然项，log p(θ) 对应着先验分布。

贝叶斯估计是参数的一种区间估计，缺点是大多数情况下贝叶斯后验的计算是非常棘手的，我们可以最大化贝叶斯后验概率得到点估计。

这样的话，不仅可以减少计算量，而且可以利用贝叶斯估计使用先验的信息的优点，这些先验知识不能从训练数据中得到，而不是简单地回到最大似然估计。

weixin_39972768

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
最大似然估计_最大似然估计与最大后验估计联系

1 引言参数估计的目的是决定变量之间相互关联的量化关系。常用的参数估计方法包括最大似然估计法、最大后验估计、期望最大化法 (EM) 和贝叶斯估计方法。2 先验概率在观测数据前，我们将 θ 的已知知识表示成先验概率分布，p(θ) 我们通常称为先验。一般而言，在机器学习实践的时候，会选择一个相当宽泛的先验分布(这个先验分布通常是高熵的分布，比如均匀分布), 以观测到任何数据前参数 θ 的高度不确定性。...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。