最大似然估计_最大似然估计与最大后验估计联系

1 引言

参数估计的目的是决定变量之间相互关联的量化关系。

常用的参数估计方法包括最大似然估计法、最大后验估计、期望最大化法 (EM) 和贝叶斯估计方法

2 先验概率

在观测数据前,我们将 θ 的已知知识表示成先验概率分布,p(θ) 我们通常称为先验。

一般而言,在机器学习实践的时候,会选择一个相当宽泛的先验分布(这个先验分布通常是高熵的分布,比如均匀分布), 以观测到任何数据前参数 θ 的高度不确定性。

3 后验概率

假设我们有一组数据样本 x(1), ..., x(m), 通过贝叶斯公式,用数据似然分布 p(x(1), ..., x(m)|θ) 和先验分布,这样就可以计算对 θ 的后验概率的计算:

9672688cae66f0eafc8252fb773480d9.png

在贝叶斯估计常见的情景下,先验分布开始是相对均匀的分布或高熵的高斯分布,观测数据通常会使后验的熵下降,并集中在参数的几个可能性很高的值。

4 最大似然估计与贝叶斯估计区别

简单地把两者联系起来:假设先验分布是均匀分布,取后验概率最大,就能从贝叶斯估计得到极大似然估计。

e864a3d0958424fdcc9dc060a4892fa4.png

来自《统计学习方法》

这里偷了懒,直接把李航书中的图,拍照拿过来了,这里面的D指的就是已知数据X。这张图可以很好的解释最大似然估计与贝叶斯估计的区别。

最大似然估计方法预测时,使用 θ 的点估计;而贝叶斯估计使用 θ 的全分布。简单的说,贝叶斯方法估计是一种参数的区间估计,即参数在一个区间上的估计。

例如,在观测到 m个样本后,下一个数据样本 x(m+1) 的预测分布如下:

38be0ea87b2f8eb5371f0c1db9af7532.png

不像似然函数中 θ 只有一个值,贝叶斯估计 θ 有很多值,贝叶斯估计中不同的 θ 就会有很多的 p(x(m+1)|θ),要确定一个 x 值,需要消除掉不确定的θ 对 x 的影响。

根据前面 m 个样本预测下一个值,就可以用 θ 的后验概率加权,对所有 p(x(m+1)|θ) 求平均,就可以消除掉不确定的 θ 对 x(m+1) 的影响。

当训练数据很有限时,贝叶斯估计通常泛化得更好,但是当训练样本数目很大时,通常会有很大的计算代价。

5 最大后验估计(MAP)

我们说贝叶斯估计是一种参数的区间估计,即参数在一个区间上的分布。如果希望得到一个最优的参数值(即点估计),可以使用最大后验估计。

最大后验估计是指最优参数为后验分布 p(θ|X) 中概率密度最高的参数:

187fafea0afa732433923e0d82311ef1.png

右边 log p(x|θ) 对应着标准的对数似然项,log p(θ) 对应着先验分布。

贝叶斯估计是参数的一种区间估计,缺点是大多数情况下贝叶斯后验的计算是非常棘手的,我们可以最大化贝叶斯后验概率得到点估计。

这样的话,不仅可以减少计算量,而且可以利用贝叶斯估计使用先验的信息的优点,这些先验知识不能从训练数据中得到,而不是简单地回到最大似然估计。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值