Frequentist和Bayesian的差别

转自:http://blog.shujufan.com/2013/08/26/frequentist和bayesian的差别/
读pattern recognition and machine learning这本书的时候,又看到了讲frequentist和bayesian的区别。对于这两者,我有一个比较模糊的概念。个人认为,最基本的差别在于对同样一堆观察数据,或者叫样本的时候,对概率的理解。前者属于死理性派,所有结论来源于你看到的数据本身;而对于后者来说,在理解数据之前,还要有一个prior experience。一个极端的例子就是,一个硬币只抛了一次,如果是head朝上。对于frequentist来说,这个硬币丢出去朝上的概率就是1,实际上这个可能性极低。对于bayesian来说,常规的看法是一个硬币默认头朝上的概率应该是0.5,这次实验会稍微修正一下这个概率,但不会像前者那么极端。这也是为什么说Bayesian方法可以避免overfitting的原因,因为它用一个相对reasonable的prior来做修正,个人认为起了正则化因子regularization factor的作用。但这也是bayesian被frequentist攻击的地方,因为这个REASONABLE显然不好定义。从某种程度上来说,这个也没有错,因为使用prior的第一原则往往不是合理,而是方便。好在,bayesian干的还不错。

很难找到一个公认的说法来区分这两者,不过我觉得在tamu的统计系找到的一个ppt总结的还挺到位。它这么说:

对于frequentist:

数据是重复的随机样本,因为有重复,所以才有了frequency这个概念
重复的过程中,潜在的参数是恒定的
参数是固定的(跟上面重复?)
对于bayesian:
数据是观察到的真实话的样本
参数未知,且用概率的方式描述,也就是参数服从某个概率分布
数据是固定的!
这里有一个很好的例子能说明两者处理问题的差别。 假设你有一个硬币,抛出去head朝上的概率为p,tail朝上为1-p,p未知。如果你抛了14次,10次head朝上,试估计p。之后请估计接着抛两次,连续出现head的概率有多大

对于frequentist来说,这是个binominal分布的问题,p是个固定值。要猜它是多少,用最大似然估计的方法,1014≈0.714简单明了且就事论事!连续两次抛到head的概率就是p2=0.51
对于bayesian来说,这个显然复杂了许多,因为涉及到你得有个像样的先验概率,根据贝叶斯公式有:

Pr(p|Data)=Pr(Data|p)∗Pr(p)/Pr(Data)

Pr(Data)是实实在在的数据,很自然可以认为对所有p都一样,所以可以忽略。Pr(Data|p)=(1410)⋅p10⋅(1−p)4
继续忽略参数得到 Pr(p|Data)∝⋅p10⋅(1−p)4⋅Pr(p)
那么关键一步到了,上面的Likelihood已经表示出来了,也就是给定一个p有多少可能产生这组数据,下面就是咬确定prior Pr(p)。因为这是个二项分布的场景,所以从方便的角度出发,假定参数p服从二项分布的共轭分布,Beta distribution。好处是,p的分布,先验概率通过二项分布变化之后,得到的后验概率依然保持Beta分布,这就是只调整参数变量的分布参数,而不改变场景本身。貌似有些拗口。这里体现的就是,对于bayesian来说,所有东西都是变量,包括参数p在内。我们能假设其服从某个分布,却也不知道这个分布exactly啥样,于是要通过眼前的数据来估计这个分布的参数。出于简化的目的,beta分布的初始参数假定为1和1,也就是均匀分布了。head 10次,tail 4次之后,得到的新参数是Beta(p;1+10, 1+4)。
看到这里,我心里又涌起了一个新的疑问。既然对于bayesian来说,p是服从某个分布,而数据是用来更新分布的参数,也就是hyperparameter用的,那么要计算Pr(HH|p)的时候,p应该用什么值去算呢?这个博客中用了一个0-1区间的积分来计算。用叶正同学的话说,其实这里潜在的规则是用p的数学期望来替代了整个分布了,那也就是常规的做法了。在博客中,还特地强调了,计算Pr(HH|p)的时候,并没有update p的分布。这样的计算更加简单,如果每次都要update,这种叫做online learning,计算量很大。

这个例子很好的演示了frequentist和bayesian的差别。对于前者来说,p就是p,它是一个实实在在的数,只是你不知道。而对于后者来说,p不是一个数,而是一个分布,我们要做的是通过已有数据,在实现设定的prior distribution的基础上,更新p的分布的参数hyperparameter。两者对概率的应用是不同的,因此它们并没有修改概率论的什么。

对我来说,概率论和统计学的差异也一直没有搞明白。貌似统计根本不属于数学,而是一个独立学科。关于概率论的学习,统计之都有个很好的说明,值得多看。

  • 3
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值