Key point
频率学派(Frequentist)- Maximun Likelihood Estimation(MLE,最大似然估计)
贝叶斯学派(Bayesian)- Maximum A Posteriori(MAP,最大后验估计)
两大学派的争论
抽象地说,两大学派对世界的认知有本质不同:
- 频率学派认为世界是确定的,有一个本体,这个本体的真值是不变的,我们的目标是找到这个真值或真值所在的范围;
- 贝叶斯学派认为世界是不确定的,人们对世界先有一个预判,而后通过观测数据对这个预判做调整,我们的目标是找到最优的描述这个世界的概率分布。
频率学派
θ 是一个参数,存在唯一真值 θ 。举一个抛硬币的例子,用 P(head) 来表示硬币的bias。抛一个硬币100次,有20次正面朝上,要估计正面朝上的bias P(head)=θ ,频率学派认为 θ=0.2 。
当数据趋向无穷大时,这种方法能给出精确的估计,但是当数据缺乏时可能产生严重的偏差。如,对于一枚均匀硬币, θ=0.5 ,抛5次,每次都是正面朝上,那频率学派会估计这枚硬币 θ=1 ,出现严重错误。
贝叶斯学派
θ 是一个随机变量,符合一定的概率分布。贝叶斯学派里输入是先验(prior)和似然(likelihood),输出是后验(posterior)。
先验,即 P(θ) ,指的是没有观测到任何数据时对 θ 的预先判断,例如对于一枚硬币,一种可行的先验的是认为这个硬币有很大的概率是均匀的,有较小的概率是不均匀的;似然,即 P(θ) ,是假设已知我们观察到的数据应该是什么样子的;后验,即 P(θ|X) ,是最终的参数分布。
贝叶斯估计的基础是贝叶斯公式,如下:
P(θ|X)=P(X|θ)×P(θ)P(X)
同样是抛硬币,对一枚均匀硬币抛5次得5次正面,如果先验认为大概率下这个硬币是均匀的,那么 P(head) ,即 P(θ|X) ,是一个分布,其最大值介于0.5~1之间,而不是像频率学派武断的得出是1。
有两个需要注意:
- 随着数据量的增加,参数分布会越来越向数据靠拢,先验的影响力会越来越小;
- 如果先验是均匀分布(uniform distribution),那么贝叶斯方法等价于频率方法。因为直观上来讲,先验是均匀分布本质上对事物没有任何预判。
MLE - 最大似然估计
MLE是频率学派常用的估计方法。
假设数据 x1,x2,…,xn 是i.i.d.(独立同分布)的一组抽样,