贝叶斯学派与频率学派的不同

关于机器学习领域里两派的发展基础及不同点,转自知乎上,主要我认为比较容易理解的几点:

著作权归作者所有。
商业转载请联系作者获得授权,非商业转载请注明出处。
作者:任坤
链接:http://www.zhihu.com/question/20587681/answer/17435552
来源:知乎

简单地说,频率学派与贝叶斯学派探讨「不确定性」这件事时的出发点与立足点不同。频率学派从「自然」角度出发,试图直接为「事件」本身建模,即事件A在独立重复试验中发生的频率趋于极限p,那么这个极限就是该事件的概率。举例而言,想要计算抛掷一枚硬币时正面朝上的概率,我们需要不断地抛掷硬币,当抛掷次数趋向无穷时正面朝上的频率即为正面朝上的概率。贝叶斯学派并不从试图刻画「事件」本身,而从「观察者」角度出发。贝叶斯学派并不试图说「事件本身是随机的」,或者「世界的本体带有某种随机性」,这套理论根本不言说关于「世界本体」的东西,而只是从「观察者知识不完备」这一出发点开始,构造一套在贝叶斯概率论的框架下可以对不确定知识做出推断的方法。
        频率学派和贝叶斯学派最大的差别其实产生于对参数空间的认知上。所谓参数空间,就是你关心的那个参数可能的取值范围。频率学派(其实就是当年的Fisher)并不关心参数空间的所有细节,他们相信数据都是在这个空间里的”某个“参数值下产生的(虽然你不知道那个值是啥),所以他们的方法论一开始就是从“哪个值最有可能是真实值”这个角度出发的。于是就有了最大似然(maximum likelihood)以及置信区间(confidence interval)这样的东西,你从名字就可以看出来他们关心的就是我有多大把握去圈出那个唯一的真实参数。而贝叶斯学派恰恰相反,他们关心参数空间里的每一个值,因为他们觉得我们又没有上帝视角,怎么可能知道哪个值是真的呢?所以参数空间里的每个值都有可能是真实模型使用的值,区别只是概率不同而已。于是他们才会引入先验分布(prior distribution)和后验分布(posterior distribution)这样的概念来设法找出参数空间上的每个值的概率。最好诠释这种差别的例子就是想象如果你的后验分布是双峰的,频率学派的方法会去选这两个峰当中较高的那一个对应的值作为他们的最好猜测,而贝叶斯学派则会同时报告这两个值,并给出对应的概率。
著作权归作者所有。

总的来说,贝叶斯概率论为人的知识(knowledge)建模来定义「概率」这个概念。频率学派试图描述的是「事物本体」,而贝叶斯学派试图描述的是观察者知识状态在新的观测发生后如何更新。为了描述这种更新过程,贝叶斯概率论假设观察者对某事件处于某个知识状态中(例如:小明先验地相信一枚硬币是均匀的,可能是出于认为均匀硬币最常见这种信念),之后观察者开始新的观测或实验(小明开始不断地抛硬币,发现抛了100次后,居然只有20次是正面朝上)。经过中间的独立重复试验,观察者获得了一些新的观测结果,这些新的观测将以含有不确定性的逻辑推断的方式影响观察者原有的信念(小明开始怀疑这枚硬币究竟是不是均匀的,甚至开始断定硬币并不均匀)。在这一过程中,观察者无法用简单的逻辑来推断,因为观察者并没有完全的信息作为证据,因此只能采用似真推断(plausible reasoning),对于各种各样可能的结果赋予一个「合理性」(plausibility)。例子中,小明原先认为硬币的分布是均匀的,于是根据小明原有的信念,这个论断合理性非常高;在观察到100次抛掷中只有20次正面朝上后,小明开始怀疑硬币的均匀性,此时小明很可能认为「硬币不均匀」这一推断的合理性很高,支持的证据就是他刚刚实验的观测结果。

上面的例子用贝叶斯概率论的语言来描述,就是观察者持有某个前置信念(prior
belief),通过观测获得统计证据(evidence),通过满足一定条件的逻辑一致推断得出的关于该陈述的「合理性」,从而得出后置信念(posterior belief)来最好的表征观测后的知识状态(state of knowledge)。这里,贝叶斯概率推断所试图解决的核心问题就是如何构建一个满足一定条件的逻辑体系赋予特定论断一个实数所表征的论断合理性的度量(measure of plausibility),从而可以允许观测者在不完全信息的状态下进行推断。这里,观察者对某变量的信念或知识状态就是频率学派所说的「概率分布」,也就是说,观察者的知识状态就是对被观察变量取各种值所赋予的「合理性」的分布。

从这个意义上来讲,贝叶斯概率论试图构建的是知识状态的表征,而不是客观世界的表征。因此,在机器学习、统计推断中,许多情况下贝叶斯概率推断更能解决观察者推断的问题,而绕开了关于事件本体的讨论,因为没有讨论本体的必要性。

参考《概率论沉思录》


    对于离散随机变量,我们可能会用二项分布或者多项分布来研究;对于连续随机变量,我们通常是用高斯分布来研究。这些都是带参数的分布模型,用的的参数一般也不外乎均值,方差等。为了用好这些模型,我们必须针对数据集来规划最好的参数。这个时候,有两个学派的观点,分别是频率学派(Frequentists贝叶斯学派(Bayesians
    总的来说,频率学派认为世界运行的规律是一定的,描述分布模型的参数也是固定的,具体体现在参数固定。 而贝叶斯学派认为世界的运行是随机的,就连运行规律本身也是随机性的,具体体现在参数是随机的,是有分布的
    在知乎上有一个关于贝叶斯学派与频率学派有何不同的回答,得到了上千次的支持。作者是这样比喻:
你看打麻将的时候:只看下面有什么牌来决策的就是频率学派;除了看下面有什么牌,还考虑了这个牌是谁打出的,什么时候打出的,这个人打出所有牌友什么联系等一系列问题的就是贝叶斯学派。
比如现在你需要一个五万才能胡牌,你看了看下面一个五万都没有,所以你想当然的认为,如果还没有打出的麻将牌数是N,那么还没有打出的每一张牌是五万的概率是4/N。这种认为模型始终不变的方法就是频率学派的观点。      但是对于一个麻将高手而言,假如他看到某个人P经常打条子和饼子,偶然会打出三万和七万,那么虽然这位高手没有看到P打出五万,也可以猜测他手里应该至少有一张。那么,还没有打出的每N张牌中,每一张牌是五万的概率就不再是4/N了,具体是多少,得研究那个人P是怎么打牌的,还有其他人是怎么打牌的才可以建立模型。像这种随时根据场上的情况来变化,不断验证的思想,就是贝叶斯学派的观点。
    所以从某个角度来说,老年娱乐中心里打麻将的大爷大妈们都是贝叶斯学派。
参考文献出处:http://www.zhihu.com/question/20587681
http://blog.csdn.net/zhuangxiaobin/article/details/26166599
http://blog.csdn.net/geniusluzh/article/details/40314501


  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值