最近机器学习很是火热,贝叶斯估计是机器学习里最基本的理论,今天就来简单介绍一下。
一、最大似然估计与无偏估计回顾
如果大家学习过概率统计应该知道最大似然估计和无偏估计两种参数估计的方法,而贝叶斯估计也是一种参数估计的方法,不同之处在于,贝叶斯估计需要先验信息来帮助我们估计。不知道大家当初是怎么学最大似然估计和无偏估计的,对于我自己来讲,说实话学完真不知道这两方法是干什么的,最后也就套一套老师讲的做题套路应付了考试。好了不说废话,先来复习一下参数估计到底干了一件什么事。
假设我们现在有一组观测数据X1,X2...,Xn,现在我们用一组参数
无偏估计是通过无偏性
二、贝叶斯估计
再介绍贝叶斯估计之前先复习一下在概率统计中学过的贝叶斯公式(离散形式):
假如现在我们要估计一枚硬币正面朝上的概率
上面的例子说明,我们通过贝叶斯估计得到的是某种概率分布,而非某一个具体值。如果我们得到的后验分布范围较窄,估计值的准确度就较高。反之,如果后验分布的范围较广,准确度就较低。下面是两种后验分布示意图:
![fff9298613f43d2146dd49931b5ec0a1.png](https://i-blog.csdnimg.cn/blog_migrate/2a7e0ef5e32d9ac55fc25b8cea25a486.png)
下面给出一个具体例子:
某种硬币正面向上的概率为R,且抛掷n次的结果都是正面向上。R的先验分布的概率密度函数如下。试求R的后验分布。
![3784dbdedf5ee06cf7178b6c6b56065c.png](https://i-blog.csdnimg.cn/blog_migrate/91181795493539a9c93fd43799caa3d8.png)
设正面向上的次数为S,R的后验分布的概率密度函数可使用连续型的贝叶斯公式求得:
它的条件期望为:
如果使用贝叶斯估计,现在再计算一下之前连续五次硬币朝上之后的R=7/9,这个答案比最大似然估计给出的答案明显要好。