再谈贝叶斯学派与频率学派的区别

频率主义(Frequentism)与贝叶斯主义(Bayesianism)的哲学辨异与实践(Python仿真)

从 Beta_Binomial共轭分布开始说起:

Beta(p|α,β)+BinomCount(m 1 ,m 2 )=Beta(p|α+m 1 ,β+m 2 ) 

一个小小的特例为:

Beta(p|1,1)+BinomCount(α1,β1)=Beta(p|α,β) 

Beta(p|1,1)  恰好正是均匀分布 U[0,1]  (概率密度恒等于1,且与 p  无关)
假设有一个不均匀的(或者说均匀与否不可知)的硬币抛出正面的概率为 p ,抛 m  次后出现正面和反面的次数分别是 m 1 ,m 2  ,那么按传统的频率学派观点, p  的估计值应该为 p ^ =m 1 m  ,而如果从贝叶斯的观点来看,开始时对硬币的不均匀性一无所知,所以应该假设 pU[0,1]  ,于是有了二项分布的计数 (m 1 ,m 2 )  之后,按照贝叶斯公式如下计算 p  的后验分布:

P(p|m 1 ,m 2 )===== P(p)P(m 1 ,m 2 |p)P(m 1 ,m 2 ) P(p)P(m 1 ,m 2 |p) 1 0 P(m 1 ,m 2 |t)P(t)dt 1P(m 1 ,m 2 |p) 1 0 P(m 1 ,m 2 |t)1dt (mm 1 )p m 1  (1p) m 2   1 0 (mm 1 )t m 1  (1t) m 2  dt p m 1  (1p) m 2   1 0 t m 1  (1t) m 2  dt   

计算得到的后验分布正好是 Beta(p|m 1 +1,m 2 +1) 

文本建模中的频率学派与贝叶斯学派

频率学派:上帝只有一个骰子,这个骰子有 V  个面,每个面对应一个词,各个面的概率不一;每抛一次,抛出的面就对应产生一个词,如果一篇文档有 N 个词(也即词频),上帝就是独立的抛 n  次以产生这 N 个词(可见有重复);

词频为 N  时,如果我们关注每个词 v i  的发生次数 n i   ,那么 n  =(n 1 ,n 2 ,,n V )  恰好是一个多项分布:

p(n  )=Multi(n  |N,p  )=(Nn  ) k=1 V p n k  k  

其中  V k=1 p k =1, V k=1 n k =N 
此时,一个很重要的任务即是估计模型中的参数 p  =(p 1 ,p 2 ,,p V )  ,也就是问上帝拥有的这个骰子的各个面的概率分别是多大,按照统计学家中频率派的观点,使用最大似然估计最大化 p(W)  ,于是参数 p i   的估计值是:
p ^  i =n i N  

对于以上模型,贝叶斯统计学派的统计学家会有不同的意见,他们会很挑剔地批评只假设上帝拥有唯一一个固定的骰子(也即 p  =(p 1 ,p 2 ,,p V )  )是不合理的。 在贝叶斯学派看来,一切参数都是随机变量,也即以上模型中的骰子 p    不是唯一固定的,它是一个随机变量。

贝叶斯学派:上帝有一个装有无穷多骰子的坛子,里面有各式各样的骰子(也即 p    各不相同),每个骰子均有 V  个面;上帝从坛子里面抽了一个骰子出来,然后用这个骰子不断地抛,抛 N 次。

上帝的这个坛子里面,骰子可以是无穷多个,有些类型的骰子数量多,有些类型的骰子少,所以从概率分布的角度看,坛子里边的骰子 p    服从于概率分布 p(p  )  ,这个分布称为参数 p    先验分布

以上是贝叶斯学派的游戏规则,此时预料 W  的概率如何计算呢?由于我们并不知道上帝到底使用了哪个骰子( p    ),所以每个骰子都有可能被使用,只是使用的概率由先验分布 p(p  )  来决定。对每一个具体的骰子 \vcp  ,由该骰子产生的数据的概率是 p(W|p  )  ,所以最终数据产生的概率就是对每一个骰子 p    产生的数据概率进行积分累加求和:

p(W)=p(W|p  )p(p  )dp   

在贝叶斯分析的框架下, 此处先验分布 p(p  )  可以有多种选择,注意到:
p(W|p  )=p(n  |N,p  )=(Nn  ) k=1 V p n k  k  

实际上在计算一个多项分布的概率,所以对先验分布 p(p  )  的一个比较好的选择即是与多项分布成共轭的共轭分布,也即Dirichlet分布:
Dir(p  |α  )=1Δ(α  )  k=1 V p α k 1 k Δ(α  )= k=1 V p α k 1 k dp   

Δ(p  )  是归一化因子;

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

五道口纳什

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值