前面介绍了贝叶斯学派的思想和先验分布、后验分布的相关知识,古典频率学派认为抛硬币的概率是常数,本文从贝叶斯学派的角度看待抛硬币的概率问题。本文详细介绍了
目录
- 为什么选择
分布作为先验分布
- 重述贝叶斯思想
- 抛硬币问题的多情况分析
- 总结
1.为什么选择
本节详细介绍
1.
其中
选择积分项作为
因此,
如果不清楚上面的公式怎么来的,可参考下面两篇博客:
如何理解beta分布?
Beta 分布归一化的证明(系数是怎么来的),期望和方差的计算
2.
由
(1) 贝叶斯对参数的估计与先验分布的选择有很重要的关系,先验分布不同,贝叶斯对参数的估计也不同。先验分布往往是人们根据以往经验去设计,
i)
由上图可知,
因此,当你对参数没有任何的先验知识时,建议你假设先验参数符合均匀分布,参数的后验分布由你的实际观测数据决定。
ii)
由上图可知,
假设参数的先验分布是高斯分布,设置参数
因此,设置
(2) 上节已经提到,参数的先验分布是
重述贝叶斯思想
关于频率学派和贝叶斯学派对频率的理解可以参考频率学派和贝叶斯学派
贝叶斯思想是量化事件发生的不确定性,是主观评价。不同人评价同一事件发生的概率不同,因为不同人的生活经历不同,对某一事件的先验知识很可能不同,比如一个博士生和一个小学生对某一事件的看法不同;同一个人对同一事件发生的概率也随着自身阅历的增加而不同,例如某个人做了九件好事,你评估他是好人的概率为0.9,当他做了一件大逆不道的事情后,你评估他是好人的概率降到了0.1。贝叶斯评价事件发生的概率带有主观性,因人而异,因阅历而不同。
凡事要讲数据
我们根据自己的阅历对某一事件作一个先验假设,先验假设是否正确需要经过时间的检验,即是否有足够多的观测数据符合先验假设。先验假设和观测数据是影响后验假设的两个因素,若观测数据不符合先验假设,则后验假设在先验假设的基础上开始向观测数据偏斜,若观测的数据为无穷大时,则先验假设可以忽略不计,直接通过观测数据来估计后验假设。因此,贝叶斯思想评价事件发生概率的准则是凡是要讲数据。
抛硬币问题的多情况分析
抛硬币问题的公式说明
在频率学派和贝叶斯学派一文中已经通过例子推导了抛硬币正面向上的后验概率,因此,这里不再推导,只引用一些结论性的公式。
假设硬币正面向上的概率为u,正面向上记为1,反面向上记为0。则硬币正面向上的先验分布如下:
硬币正面向上的期望:
其中a,b表示虚拟的硬币正面向上的次数和反面向上的次数,根据自己的先验知识来设置a,b值。
若后续的观测结果为m次正面向上,l次反面向上,共N次。
则硬币正面向上的后验分布如下:
硬币为正面向上的概率:
多情况的抛硬币问题
(1) 第1次抛硬币为正面向上的概率;
(2) 9次硬币正面向上,1次反面向上,第十一次硬币正面向上的概率;
(3) 90次硬币正面向上,10次硬币反面向上,求101次正面向上的概率;
(4) 900次硬币正面向上,100次硬币反面向上,求1001次正面向上的概率;
解:
贝叶斯的后验分布受先验分布的影响,不同的先验分布会有不同的后验分布。假设硬币正面向上的分布符合高斯分布(a=10,b=10),高斯分布符合大部分人的思想,认为硬币为正面向上的概率在0.5达到最大,方差表示先验分布的确定程度,若你坚信硬币向上的概率肯定是0.5,那么可以调大a和b的值。
本文就先验分布为高斯分布来解答抛硬币的四个问题。其他先验分布可通过调节a,b的值来实现,后面的计算过程一致。
正面向上的后验概率:
a,b,m,l分别表示先验分布的正面向上次数,反面向上次数,已观测数据的正面向上次数,反面向上次数。
先验分布为高斯分布:
(1) 由于没有任何观测数据,因此第一次正面向上的分布为先验分布,先验分布在参数为0.5时,概率最大,记正面向上的概率为0.5。
(2) 正面向上的概率为:
(3) 计算过程与(2)一样,正面向上的概率:0.83
(4) 正面向上的概率为:0.89
讨论:
频率学派认为硬币向上的概率是0.5,与观测数据无关。贝叶斯学派是通过数据来主观评价硬币向上的概率,由例子可知,即使先验分布符合高斯分布且正面向上的概率在0.5达到最大,但是如果观测数据倾向与正面向上,则最终的判断结果会倾向于正面向上,贝叶斯思想有点像是风往哪边吹树就往哪边倒的意思。当观测结果的正面向上次数远远大于正面向下次数,也远远大于先验分布的正面向下次数,则判断下次为正面向上的概率无限接近1。
总结
本文详细介绍了