机器学习——极大似然估计与贝叶斯估计

转自:机器学习——极大似然估计与贝叶斯估计

 

极大似然估计

极大似然估计是频率派提出的参数的点估计方法。
基于参数theta是固定的这一条件, 即使得当前数据集D出现概率最大的参数就是实际参数。
具体求解方法就是对似然函数求导。

贝叶斯参数估计

贝叶斯参数估计是贝叶斯派提出的参数估计方法。可分为贝叶斯点估计,贝叶斯区间估计,本文暂不涉及区间估计。
基于参数theta是服从一定先验分布的随机变量这一条件。那么在数据集D出现后,有了新的信息,我们可以依此更新参数theta的分布,这个更新后的分布就是后验概率分布。


贝叶斯点估计

既然更新后的参数仍然是服从一定概率分布的随机变量,那么如果我们只要一个参数向量,该如何挑选呢?这就涉及到三类挑选方法:

    后验众数估计。顾名思义,挑选出现最频繁的参数。也就是说,后验概率分布出现概率最大的theta。故对后验概率分布函数求导即可。这个做法类似于极大似然估计,数学表达式等同于似然函数乘以先验分布(当先验分布为均匀分布,表达式相同),因此被称为是正则化的极大似然估计,又称为最大后验概率估计(MAP),但切记背后的思想截然不同。

 

  • 后验中位数估计。挑选参数的中位数,似乎用得少。
  • 后验期望估计。就是选取所有参数的均值,即θˆ=∫θθp(θ∣D)dθ
  1. θ^=∫θ​θp(θ∣D)dθ相对MAP而言,需要进行积分运算。但可以有效避免所要估计的概率为0的情况。由于使用较多,在很多资料中直接简称为参数的贝叶斯估计 (比较容易与下文的贝叶斯估计混淆,个人感觉还是称为后验期望估计比较好)

贝叶斯估计

上文中,贝叶斯点估计从某种意义上讲,都是选取一个随机变量theta的统计值(众数、中位数和均值)来替代分布,这样做的目的无非就是可以减少计算量。但真正意义上的贝叶斯估计方法应该是使用参数空间中所有的参数,分别建立模型(获取模型的ensemble),然后运用所有的模型进行估计,取所有估计值的期望为最终估计值,权值根据参数的概率分布计算。这样做可以有效避免过拟合,但计算量是十分巨大的。具体降低计算量的方法,后续再讲。

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值