1,频率统计与贝叶斯统计
频率统计认为事件服从特定的分布,分布的参数虽然未知但是固定。如果进行大量独立重复实验,那么事件发生的概率一定会趋向事件的真实概率。比如抛硬币实验,如果重复无数次的话,出面证明的概率会非常接近0.5. 换句话说,频率统计以大数据为基础。
贝叶斯统计认为事件的发生不是随机的,他受到知识的影响。贝叶斯统计概率来描述知识。比如在抛硬币实验中,只进行了三次实验,而这三次实验都是正面。如果根据频率统计的观点,那么正面出现的概率应该是1.但是事实上,如果硬币没有问题的话,正面出现的概率应该是0.5.所以说此时(实验次数少)的情况下,频率统计的结果并不合理。贝叶斯统计解决这种基于已知的知识,比如说,我们可以假设正面出现的概率位于
2,贝叶斯统计
2.1 贝叶斯公式:
在抛硬币的例子中,抛硬币事件可以看成是以
2.2 Beta分布:
通常会使用
因为
只有
2.3 Beta分布与二项式分布是共轭先验的:
在使用贝叶斯方法进行参数估计时,如果先验概率和后验概率有相同的形式,那么就称为先验概率和后验概率是共轭先验的。共轭先验可以大幅简化计算过程。
举个例子,以Beta分布为先验概率,用二项式分布构造似然函数时,参数的后验概率也符合Beta分布。
证明Beta分布与二项式分布是共轭先验,先设事件为
则根据贝叶斯公司可以得参数的后验概率为:
因为
因为分母
证明完毕。
2.4 例子
假设进行了三次抛硬币实验,三次结果均为正面。分别为
1,
2,
3,
2.5 贝叶斯估计(BE)
MLE使用似然函数来估计参数值,而贝叶斯估计(BE)则使用
计算前面例子中的参数估计,并理解先验分布对后验分布的影响:
1,
2,
3,
3,最大后验估计(MAP)
贝叶斯估计认为所有可能的
MAP估计可以看作是,在优化似然函数的同时,加入了正则化项(即先验概率的对数)。
使用MAP,计算前面例子中的参数估计:
1,
2,
3,
参考资料:
https://www.zhihu.com/question/30269898
李文哲:机器学习中的MLE、MAP、贝叶斯估计
https://www.youtube.com/watch?v=2_eFIyrOdJc
http://noahsnail.com/2018/05/17/2018-05-17-%E8%B4%9D%E5%8F%B6%E6%96%AF%E4%BC%B0%E8%AE%A1%E3%80%81%E6%9C%80%E5%A4%A7%E4%BC%BC%E7%84%B6%E4%BC%B0%E8%AE%A1%E3%80%81%E6%9C%80%E5%A4%A7%E5%90%8E%E9%AA%8C%E6%A6%82%E7%8E%87%E4%BC%B0%E8%AE%A1/
https://blog.csdn.net/yangliuy/article/details/8296481