Frequentist和Bayesian的差别

最新推荐文章于 2020-09-15 23:15:52 发布

imck

最新推荐文章于 2020-09-15 23:15:52 发布

阅读量7.3k

点赞数 3

分类专栏： machine learning 文章标签：贝叶斯

machine learning 专栏收录该内容

2 篇文章 0 订阅

订阅专栏

转自：http://blog.shujufan.com/2013/08/26/frequentist和bayesian的差别/
读pattern recognition and machine learning这本书的时候，又看到了讲frequentist和bayesian的区别。对于这两者，我有一个比较模糊的概念。个人认为，最基本的差别在于对同样一堆观察数据，或者叫样本的时候，对概率的理解。前者属于死理性派，所有结论来源于你看到的数据本身；而对于后者来说，在理解数据之前，还要有一个prior experience。一个极端的例子就是，一个硬币只抛了一次，如果是head朝上。对于frequentist来说，这个硬币丢出去朝上的概率就是1，实际上这个可能性极低。对于bayesian来说，常规的看法是一个硬币默认头朝上的概率应该是0.5，这次实验会稍微修正一下这个概率，但不会像前者那么极端。这也是为什么说Bayesian方法可以避免overfitting的原因，因为它用一个相对reasonable的prior来做修正，个人认为起了正则化因子regularization factor的作用。但这也是bayesian被frequentist攻击的地方，因为这个REASONABLE显然不好定义。从某种程度上来说，这个也没有错，因为使用prior的第一原则往往不是合理，而是方便。好在，bayesian干的还不错。

很难找到一个公认的说法来区分这两者，不过我觉得在tamu的统计系找到的一个ppt总结的还挺到位。它这么说：

对于frequentist:

数据是重复的随机样本，因为有重复，所以才有了frequency这个概念
重复的过程中，潜在的参数是恒定的
参数是固定的（跟上面重复？）
对于bayesian:
数据是观察到的真实话的样本
参数未知，且用概率的方式描述，也就是参数服从某个概率分布
数据是固定的！
这里有一个很好的例子能说明两者处理问题的差别。假设你有一个硬币，抛出去head朝上的概率为p，tail朝上为1-p，p未知。如果你抛了14次，10次head朝上，试估计p。之后请估计接着抛两次，连续出现head的概率有多大

对于frequentist来说，这是个binominal分布的问题，p是个固定值。要猜它是多少，用最大似然估计的方法，1014≈0.714简单明了且就事论事！连续两次抛到head的概率就是p2=0.51
对于bayesian来说，这个显然复杂了许多，因为涉及到你得有个像样的先验概率，根据贝叶斯公式有：

Pr(p|Data)=Pr(Data|p)∗Pr(p)/Pr(Data)

Pr(Data)是实实在在的数据，很自然可以认为对所有p都一样，所以可以忽略。Pr(Data|p)=(1410)⋅p10⋅(1−p)4
继续忽略参数得到 Pr(p|Data)∝⋅p10⋅(1−p)4⋅Pr(p)
那么关键一步到了，上面的Likelihood已经表示出来了，也就是给定一个p有多少可能产生这组数据，下面就是咬确定prior Pr(p)。因为这是个二项分布的场景，所以从方便的角度出发，假定参数p服从二项分布的共轭分布，Beta distribution。好处是，p的分布，先验概率通过二项分布变化之后，得到的后验概率依然保持Beta分布，这就是只调整参数变量的分布参数，而不改变场景本身。貌似有些拗口。这里体现的就是，对于bayesian来说，所有东西都是变量，包括参数p在内。我们能假设其服从某个分布，却也不知道这个分布exactly啥样，于是要通过眼前的数据来估计这个分布的参数。出于简化的目的，beta分布的初始参数假定为1和1，也就是均匀分布了。head 10次，tail 4次之后，得到的新参数是Beta(p;1+10, 1+4)。
看到这里，我心里又涌起了一个新的疑问。既然对于bayesian来说，p是服从某个分布，而数据是用来更新分布的参数，也就是hyperparameter用的，那么要计算Pr(HH|p)的时候，p应该用什么值去算呢？这个博客中用了一个0-1区间的积分来计算。用叶正同学的话说，其实这里潜在的规则是用p的数学期望来替代了整个分布了，那也就是常规的做法了。在博客中，还特地强调了，计算Pr(HH|p)的时候，并没有update p的分布。这样的计算更加简单，如果每次都要update，这种叫做online learning，计算量很大。

这个例子很好的演示了frequentist和bayesian的差别。对于前者来说，p就是p，它是一个实实在在的数，只是你不知道。而对于后者来说，p不是一个数，而是一个分布，我们要做的是通过已有数据，在实现设定的prior distribution的基础上，更新p的分布的参数hyperparameter。两者对概率的应用是不同的，因此它们并没有修改概率论的什么。

对我来说，概率论和统计学的差异也一直没有搞明白。貌似统计根本不属于数学，而是一个独立学科。关于概率论的学习，统计之都有个很好的说明，值得多看。

imck

关注

3
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
Frequentist和Bayesian的差别

转自：http://blog.shujufan.com/2013/08/26/frequentist和bayesian的差别/ 读pattern recognition and machine learning这本书的时候，又看到了讲frequentist和bayesian的区别。对于这两者，我有一个比较模糊的概念。个人认为，最基本的差别在于对同样一堆观察数据，或者叫样本的时候，对概率的理解。前者
复制链接

扫一扫