频率学派与贝叶斯学派

最新推荐文章于 2022-04-08 10:05:00 发布

王凯2012

最新推荐文章于 2022-04-08 10:05:00 发布

阅读量1.1k

点赞数

分类专栏：在大学-数学建模在大学-机器学习进阶

本文链接：https://blog.csdn.net/u013599826/article/details/41210979

版权

在大学-数学建模同时被 2 个专栏收录

24 篇文章 11 订阅

订阅专栏

在大学-机器学习进阶

16 篇文章 0 订阅

订阅专栏

//2014年11月17日

//http://www.douban.com/group/topic/16719644/

//http://yihui.name/cn/2010/12/unifying-bayesians-and-frequentists/

//http://www.zhihu.com/question/20587681

//http://blog.csdn.net/u013599826/article/details/41211401

//http://www.douban.com/group/topic/16951058/

//http://www.quora.com/What-is-the-difference-between-Bayesian-and-frequentist-statisticians

//更好理解请看所列链接

一、世界观差异

简单地说，频率学派与贝叶斯学派探讨「不确定性」这件事时的出发点与立足点不同。频率学派从「自然」角度出发，试图直接为「事件」本身建模，即事件A在独立重复试验中发生的频率趋于极限p，那么这个极限就是该事件的概率。举例而言，想要计算抛掷一枚硬币时正面朝上的概率，我们需要不断地抛掷硬币，当抛掷次数趋向无穷时正面朝上的频率即为正面朝上的概率。

然而，贝叶斯学派并不从试图刻画「事件」本身，而从「观察者」角度出发。贝叶斯学派并不试图说「事件本身是随机的」，或者「世界的本体带有某种随机性」，这套理论根本不言说关于「世界本体」的东西，而只是从「观察者知识不完备」这一出发点开始，构造一套在贝叶斯概率论的框架下可以对不确定知识做出推断的方法。频率学派下说的「随机事件」在贝叶斯学派看来，并不是「事件本身具有某种客观的随机性」，而是「观察者不知道事件的结果」而已，只是「观察者」知识状态中尚未包含这一事件的结果。但是在这种情况下，观察者又试图通过已经观察到的「证据」来推断这一事件的结果，因此只能靠猜。贝叶斯概率论就想构建一套比较完备的框架用来描述最能服务于理性推断这一目的的「猜的过程」。因此，在贝叶斯框架下，同一件事情对于知情者而言就是「确定事件」，对于不知情者而言就是「随机事件」，随机性并不源于事件本身是否发生，而只是描述观察者对该事件的知识状态。

总的来说，贝叶斯概率论为人的知识（knowledge）建模来定义「概率」这个概念。频率学派试图描述的是「事物本体」，而贝叶斯学派试图描述的是观察者知识状态在新的观测发生后如何更新。为了描述这种更新过程，贝叶斯概率论假设观察者对某事件处于某个知识状态中（例如：小明先验地相信一枚硬币是均匀的，可能是出于认为均匀硬币最常见这种信念），之后观察者开始新的观测或实验（小明开始不断地抛硬币，发现抛了100次后，居然只有20次是正面朝上）。经过中间的独立重复试验，观察者获得了一些新的观测结果，这些新的观测将以含有不确定性的逻辑推断的方式影响观察者原有的信念（小明开始怀疑这枚硬币究竟是不是均匀的，甚至开始断定硬币并不均匀）。在这一过程中，观察者无法用简单的逻辑来推断，因为观察者并没有完全的信息作为证据，因此只能采用似真推断（plausible reasoning），对于各种各样可能的结果赋予一个「合理性」（plausibility）。例子中，小明原先认为硬币的分布是均匀的，于是根据小明原有的信念，这个论断合理性非常高；在观察到100次抛掷中只有20次正面朝上后，小明开始怀疑硬币的均匀性，此时小明很可能认为「硬币不均匀」这一推断的合理性很高，支持的证据就是他刚刚实验的观测结果。

上面的例子用贝叶斯概率论的语言来描述，就是观察者持有某个前置信念（prior belief），通过观测获得统计证据（evidence），通过满足一定条件的逻辑一致推断得出的关于该陈述的「合理性」，从而得出后置信念（posterior belief）来最好的表征观测后的知识状态（state of knowledge）。这里，贝叶斯概率推断所试图解决的核心问题就是如何构建一个满足一定条件的逻辑体系赋予特定论断一个实数所表征的论断合理性的度量（measure of plausibility），从而可以允许观测者在不完全信息的状态下进行推断。这里，观察者对某变量的信念或知识状态就是频率学派所说的「概率分布」，也就是说，观察者的知识状态就是对被观察变量取各种值所赋予的「合理性」的分布。

从这个意义上来讲，贝叶斯概率论试图构建的是知识状态的表征，而不是客观世界的表征。因此，在机器学习、统计推断中，许多情况下贝叶斯概率推断更能解决观察者推断的问题，而绕开了关于事件本体的讨论，因为没有讨论本体的必要性。

二、频率批判

从数学上来说就是一个能不能加先验概率的问题。频率派认为不能加，贝叶斯派认为可以加。加一个先验概率往往有利于数学推导，即使是加一个没有任何信息的non-informative prior也行。因此说贝叶斯派首先是一个数学上便利的方法。我相信大多数科学家对数学方法没有信仰，哪个能解决实际问题就用哪个。

但是有些贝叶斯信徒不满意这种纯功利的解释，而要把这种数学方法上升到方法论的高度。

可惜光笑不解决问题。实际使用中无法回避的问题是，先验概率是怎么来的？有些问题，比如太阳有没有爆炸之类，有比较明确的先验概率。而我们之所以相信这个先验概率，无非是因为我们知道在地球诞生以来的几十亿年里太阳都没有爆炸。仔细考察起来，这些先验概率其实也是从长期观察得来的。如果考虑到这点，频率派和贝叶斯派就很难区分了。

更糟糕的是，科学实验往往探索的是以前没有探索过的新领域。很少有人去研究心电感应这种没什么希望的东西（也很少有人会资助这种研究）。在一个新领域，往往没有特别公认的先验概率，那么怎么办呢？这时候往往还是使用不提供任何信息的non-informative prior。

尤其在假设检验的时候，贝叶斯派对p-value很不满意。（http://blog.csdn.net/u013599826/article/details/41211401）但是你总不能说，因为我相信我的结论，所以我的结论是正确的吧。那就不是科学研究了。贝叶斯派总是说，得出先验概率要用经验，用知识，用这用那，可是提不出一个公认的标准方法。科学工作者需要向同行证明自己的工作有效。如果没有一个客观公认的方法，就很难让别人相信，因此尽管p-value存在这样那样的问题，科学界也很难抛弃它，最多是做一些有针对性的预防措施。

话说回来，我以为这种争议没有太大意义。贝叶斯作为一种数学工具很好用，尤其在利用大量计算的统计模型中非常有效，因此在近年流行很广。（贝叶斯派因为所有的参数都是随机变量，都有分布，因此可以使用一些基于采样的方法（如MCMC）使得我们更容易构建复杂模型。）但是数学应该保持数学的本色。脱离了数学去谈论哪种更好，我实在看不出有太多不得了的意义。

三、中庸观点

而贝叶斯观点被诟病的地方也就是有人认为数据分析不应该加入主观因素。一般教科书上论及贝叶斯和频率学派，都是基于参数模型。可是参数模型本身就是一种主观的先验假设，这应该是频率学派一个致命的弱点。

随着计算工具的进步，更有用的，也是更多关注的热点，是非参数的模型（例如统计学习理论）。实际上可以把非参数模型看作有很多很多，甚至无穷多个参数。这个时候如果不对参数加以先验的限制，则必然会导致模型效果很差（overfitting）。

另一方面，如果一切都从贝叶斯的观点出发，很多理论分析会陷入困境。想象一下：总体均值都没有了，样本均值收敛到谁去？大数定律都没法用了！

为什么说有一种趋势是把频率和贝叶斯结合起来，这里我举一个例子，比方说岭回归。你可以从贝叶斯的观点看，把正则项看作引入了一种先验。也可以从频率派的角度做理论分析，正则项的引入是为了得到方差-偏差平衡（Bias-Variance tradeoff）。很多（有用的）统计模型都可以像这样子从这两方面同时诠释，一定要区分他们……可能更多的是哲学问题了。

四、注意几点

1.贝叶斯派因为所有的参数都是随机变量，都有分布，因此可以使用一些基于采样的方法（如MCMC）使得我们更容易构建复杂模型。频率派的优点则是没有假设一个先验分布，因此更加客观，也更加无偏，在一些保守的领域（比如制药业、法律）比贝叶斯方法更受到信任。

2.当先验分布是错误的时候，随着样本大小趋向于无穷大，贝叶斯评估还是一致的（收敛于真值）。实际上，在现实里，根本就不存在正确的先验分布。正是因为只要样本足够大，错误的先验也能被数据主导（dominate），所以，贝叶斯评估还是可以很准。

3.“回到贝叶斯和频率之争，二者的核心分歧就在于现实世界有多少信息“可用”。方法上并无多大差异。”这句话完全是不对的。两者的分歧不是在于有多少信息可用。。。而是方法上的巨大差异！！！两者都是基于一定的统计模型（当然在非参数或者半参方法下，都是假设有一个统计模型，但是我们不知道而已。），只不过，频率者认为参数就是固定了的，而贝叶斯者认为，参数本身就是随机数，上帝从先验里掷色子抽出来的。

4.关于频率和贝叶斯的区别，还有一个重大的区别，没有人提到，我这里要强调一下，只有频率才有test！贝叶斯是没有的！！！这里我要强调一下什么是test，在统计学里，所谓test，是指在指定一个null hypothesis之后，归纳出一个alternative hypothesis，这个alternative一定是null在逻辑上的非集，在假设null成立的前提下，得出一个统计量statistic，然后通过研究该statistic的分布，进行对于null接受还是拒绝的判定！这才是test！！！所谓贝叶斯test什么的，严格意义上来说，都不是统计学所指的test！！！

5.其实吧，频率者们关心的是点评估值和点评估量，这也是一个重大的区别，源于方法的不同，因为频率者相信参数是固定的，那么，点评估值就变得格外重要。而贝叶斯评估，其实，所有的一切，都是围绕着posterior的研究，点评估值其实是没有意义的！！！我们都知道一个常识，贝叶斯的posterior随着样本空间增大，会shrink！但是shrink到一点，只是在于理想的极限情况，大多数情况都是一个分布，不管多狭窄，并且大多数情况下，贝叶斯的posterior都是skew的，亦即，median和mean不同，这时候点评估值是否有意义是不确定的，更别提牵涉到directional statistics里各种manifolds的情况了。而且，稍微注意一下就知道，频率理论框架下，预测是根据点评估值来的，而贝叶斯呢，是不用点评估值进行预测的，而是从posterior里抽样，然后根据每一个posterior的抽样进行DGP的形式。