频率主义(Frequentism)与贝叶斯主义(Bayesianism)的哲学辨异与实践(Python仿真)
从 Beta_Binomial共轭分布开始说起:
一个小小的特例为:
而
Beta(p|1,1)
恰好正是均匀分布
U[0,1]
(概率密度恒等于1,且与
p
无关)
假设有一个不均匀的(或者说均匀与否不可知)的硬币抛出正面的概率为
计算得到的后验分布正好是 Beta(p|m 1 +1,m 2 +1)
文本建模中的频率学派与贝叶斯学派
频率学派:上帝只有一个骰子,这个骰子有
V
个面,每个面对应一个词,各个面的概率不一;每抛一次,抛出的面就对应产生一个词,如果一篇文档有
词频为
N
时,如果我们关注每个词
其中 ∑ V k=1 p k =1,∑ V k=1 n k =N
此时,一个很重要的任务即是估计模型中的参数 p ⃗ =(p 1 ,p 2 ,…,p V ) ,也就是问上帝拥有的这个骰子的各个面的概率分别是多大,按照统计学家中频率派的观点,使用最大似然估计最大化 p(W) ,于是参数 p i 的估计值是:
对于以上模型,贝叶斯统计学派的统计学家会有不同的意见,他们会很挑剔地批评只假设上帝拥有唯一一个固定的骰子(也即 p ⃗ =(p 1 ,p 2 ,…,p V ) )是不合理的。 在贝叶斯学派看来,一切参数都是随机变量,也即以上模型中的骰子 p ⃗ 不是唯一固定的,它是一个随机变量。
贝叶斯学派:上帝有一个装有无穷多骰子的坛子,里面有各式各样的骰子(也即
p ⃗
各不相同),每个骰子均有
V
个面;上帝先从坛子里面抽了一个骰子出来,然后用这个骰子不断地抛,抛
上帝的这个坛子里面,骰子可以是无穷多个,有些类型的骰子数量多,有些类型的骰子少,所以从概率分布的角度看,坛子里边的骰子 p ⃗ 服从于概率分布 p(p ⃗ ) ,这个分布称为参数 p ⃗ 的先验分布。
以上是贝叶斯学派的游戏规则,此时预料
W
的概率如何计算呢?由于我们并不知道上帝到底使用了哪个骰子(
p ⃗
),所以每个骰子都有可能被使用,只是使用的概率由先验分布
p(p ⃗ )
来决定。对每一个具体的骰子
\vcp
,由该骰子产生的数据的概率是
p(W|p ⃗ )
,所以最终数据产生的概率就是对每一个骰子
p ⃗
产生的数据概率进行积分累加求和:
在贝叶斯分析的框架下, 此处先验分布 p(p ⃗ ) 可以有多种选择,注意到:
实际上在计算一个多项分布的概率,所以对先验分布 p(p ⃗ ) 的一个比较好的选择即是与多项分布成共轭的共轭分布,也即Dirichlet分布:
Δ(p ⃗ ) 是归一化因子;