机器学习——极大似然估计与贝叶斯估计

最新推荐文章于 2024-06-30 17:30:00 发布

u010660276

最新推荐文章于 2024-06-30 17:30:00 发布

阅读量898

点赞数 1

分类专栏：机器学习文章标签：机器学习

机器学习专栏收录该内容

5 篇文章 0 订阅

订阅专栏

转自：机器学习——极大似然估计与贝叶斯估计

极大似然估计

极大似然估计是频率派提出的参数的点估计方法。
基于参数theta是固定的这一条件, 即使得当前数据集D出现概率最大的参数就是实际参数。
具体求解方法就是对似然函数求导。

贝叶斯参数估计

贝叶斯参数估计是贝叶斯派提出的参数估计方法。可分为贝叶斯点估计，贝叶斯区间估计，本文暂不涉及区间估计。
基于参数theta是服从一定先验分布的随机变量这一条件。那么在数据集D出现后，有了新的信息，我们可以依此更新参数theta的分布，这个更新后的分布就是后验概率分布。

贝叶斯点估计

既然更新后的参数仍然是服从一定概率分布的随机变量，那么如果我们只要一个参数向量，该如何挑选呢？这就涉及到三类挑选方法：

后验众数估计。顾名思义，挑选出现最频繁的参数。也就是说，后验概率分布出现概率最大的theta。故对后验概率分布函数求导即可。这个做法类似于极大似然估计,数学表达式等同于似然函数乘以先验分布(当先验分布为均匀分布，表达式相同)，因此被称为是正则化的极大似然估计，又称为最大后验概率估计(MAP)，但切记背后的思想截然不同。

后验中位数估计。挑选参数的中位数，似乎用得少。
后验期望估计。就是选取所有参数的均值，即θˆ=∫θθp(θ∣D)dθ

θ^=∫θθp(θ∣D)dθ相对MAP而言，需要进行积分运算。但可以有效避免所要估计的概率为0的情况。由于使用较多，在很多资料中直接简称为参数的贝叶斯估计 (比较容易与下文的贝叶斯估计混淆，个人感觉还是称为后验期望估计比较好)。

贝叶斯估计

上文中，贝叶斯点估计从某种意义上讲，都是选取一个随机变量theta的统计值(众数、中位数和均值)来替代分布，这样做的目的无非就是可以减少计算量。但真正意义上的贝叶斯估计方法应该是使用参数空间中所有的参数，分别建立模型(获取模型的ensemble)，然后运用所有的模型进行估计，取所有估计值的期望为最终估计值，权值根据参数的概率分布计算。这样做可以有效避免过拟合，但计算量是十分巨大的。具体降低计算量的方法，后续再讲。

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。