贝叶斯学派与频率学派有何不同?

本文为最近读有关贝叶斯统计学书籍的备忘录,写成于因大雪长时间停滞在济南的高铁上。

伟大的先知总是被自己的时代遗弃,比如遗传学之父孟德尔,比如统计学家贝叶斯牧师。

学《概率论》的时候,只是为了把这门课对付过去,过了1年重新读这方面的书籍又能重新感到其中的奥妙。统计学与其说是数学的一个分支,不如说更像是一种看待世界的方式和思想。其推理的核心方式是归纳式的,而非演绎式的,既然非演绎,那便很难建立起一套大家都认可的公理系统(如欧式几何),于是分歧便再所难免。

统计推断的基本模式大致如下:

样本X的分布或概率密度函数依赖于未知参数 ,但是只知道 属于某一集合 ,但不知它取 中的何值?

统计推断的任务就是对 值做某种论断,或者判断 是否落在 的某个指定子集之内?

如何做这个判断与推论大致有以下两种方法:

参数 固定,样本X为随机,概率计算针对X的分布进行,着眼点是样本空间。该类学派被称为频率学派,是统计学中较为经典直至现在还算比较老牌主流的学说。

参数 为随机变量,而样本X为固定,概率计算着重是参数 的分布,着眼点是参数空间。该学派被称为贝叶斯学派。

了解任何一个学派的精髓在于知道其最基本的假设。

课本中对贝叶斯学派的介绍较少,好像仅限于条件概率的公式,但是条件概率这个问题究竟意味着什么?求条件概率的等价语言为把参数 看成随机变量。在这里基本的假设就要出现了:要知道 的条件分布就必须知道 的无条件分布,即没有观察到任何样本值前 的分布。

贝叶斯首先定义了“概率”这个概念:概率即为某种未知情况做出可能性大小的一种测度。贝叶斯对“无条件分布”的定义方法是:构建了一个台球模型,并将“对 值一无所知”情况下的“无条件分布”数学化成了区间 的均匀分布。当然这个假设受到频率学派的猛烈抨击。当然,这件事情的复杂在于既然是“无条件分布”,那么对 值应该绝对一无所知,应该避免可能的倾向性,在假设中包含的关于 的信息应该越少越好,在极端情况下,信息为0,那么就是“无条件分布”了。

但要命的是如何量化信息,至今没法找到行之有效的办法(香农信息熵是一种重要的尝试)。我曾经尝试着和朋友做过讨论,结果是“谁爱信什么信什么。” @朱宽(346469765)

如此看来假设无条件分布为均匀分布是最能符合“无条件”这三个字传递出来意义的一种方式。

由两种基本假设我们就可以看出两种学派在统计推断思路上的差异了,以最简单的二项分布概率为例:

频率学派:用X在N中观察到的次数去估计 ,即用 衡量。

贝叶斯学派:先验分布(无条件分布)+样本信息=后验分布,在二项分布问题中先验分布为R(0,1)。后验分布可能是任何分布,依据实验和观察结果而定,我们假设其为 分布。余下的统计推断全部根据后验分布决定。比如以一个值估计 ,就可以算后验分布的期望。

下面讲一下表扬和批评。

对贝叶斯学派的批评:

统计推断的结果严重依赖于“不靠谱”的先验分布。

贝叶斯方法缺乏客观性。

表扬:

在某些参数模型且样本量不大的情况下,贝叶斯统计避免了寻求抽样分布的麻烦,应用上比频率统计更方便,这也是为什么国外心理学研究这几年的推论统计开始使用贝叶斯方法。

更符合人类的认知习惯和认识世界的方式,这也是为什么这种方法能广泛应用于机器学习和人工智能等领域,举个生活中的例子。

一个男的追一个女的。男的很清楚结果只有两种:喜剧或者悲剧!但是贝叶斯是以 为研究对象的,所以说你在追女孩的过程中总会根据她对你的一颦一笑、举手投足估计最后悲剧的概率有多大



本文为最近读有关贝叶斯统计学书籍的备忘录,写成于因大雪长时间停滞在济南的高铁上。

伟大的先知总是被自己的时代遗弃,比如遗传学之父孟德尔,比如统计学家贝叶斯牧师。

学《概率论》的时候,只是为了把这门课对付过去,过了1年重新读这方面的书籍又能重新感到其中的奥妙。统计学与其说是数学的一个分支,不如说更像是一种看待世界的方式和思想。其推理的核心方式是归纳式的,而非演绎式的,既然非演绎,那便很难建立起一套大家都认可的公理系统(如欧式几何),于是分歧便再所难免。

统计推断的基本模式大致如下:

样本X的分布或概率密度函数依赖于未知参数 ,但是只知道 属于某一集合 ,但不知它取 中的何值?

统计推断的任务就是对 值做某种论断,或者判断 是否落在 的某个指定子集之内?

如何做这个判断与推论大致有以下两种方法:

参数 固定,样本X为随机,概率计算针对X的分布进行,着眼点是样本空间。该类学派被称为频率学派,是统计学中较为经典直至现在还算比较老牌主流的学说。

参数 为随机变量,而样本X为固定,概率计算着重是参数 的分布,着眼点是参数空间。该学派被称为贝叶斯学派。

了解任何一个学派的精髓在于知道其最基本的假设。

课本中对贝叶斯学派的介绍较少,好像仅限于条件概率的公式,但是条件概率这个问题究竟意味着什么?求条件概率的等价语言为把参数 看成随机变量。在这里基本的假设就要出现了:要知道 的条件分布就必须知道 的无条件分布,即没有观察到任何样本值前 的分布。

贝叶斯首先定义了“概率”这个概念:概率即为某种未知情况做出可能性大小的一种测度。贝叶斯对“无条件分布”的定义方法是:构建了一个台球模型,并将“对 值一无所知”情况下的“无条件分布”数学化成了区间 的均匀分布。当然这个假设受到频率学派的猛烈抨击。当然,这件事情的复杂在于既然是“无条件分布”,那么对 值应该绝对一无所知,应该避免可能的倾向性,在假设中包含的关于 的信息应该越少越好,在极端情况下,信息为0,那么就是“无条件分布”了。

但要命的是如何量化信息,至今没法找到行之有效的办法(香农信息熵是一种重要的尝试)。我曾经尝试着和朋友做过讨论,结果是“谁爱信什么信什么。” @朱宽(346469765)

如此看来假设无条件分布为均匀分布是最能符合“无条件”这三个字传递出来意义的一种方式。

由两种基本假设我们就可以看出两种学派在统计推断思路上的差异了,以最简单的二项分布概率为例:

频率学派:用X在N中观察到的次数去估计 ,即用 衡量。

贝叶斯学派:先验分布(无条件分布)+样本信息=后验分布,在二项分布问题中先验分布为R(0,1)。后验分布可能是任何分布,依据实验和观察结果而定,我们假设其为 分布。余下的统计推断全部根据后验分布决定。比如以一个值估计 ,就可以算后验分布的期望。

下面讲一下表扬和批评。

对贝叶斯学派的批评:

统计推断的结果严重依赖于“不靠谱”的先验分布。

贝叶斯方法缺乏客观性。

表扬:

在某些参数模型且样本量不大的情况下,贝叶斯统计避免了寻求抽样分布的麻烦,应用上比频率统计更方便,这也是为什么国外心理学研究这几年的推论统计开始使用贝叶斯方法。

更符合人类的认知习惯和认识世界的方式,这也是为什么这种方法能广泛应用于机器学习和人工智能等领域,举个生活中的例子。

一个男的追一个女的。男的很清楚结果只有两种:喜剧或者悲剧!但是贝叶斯是以 为研究对象的,所以说你在追女孩的过程中总会根据她对你的一颦一笑、举手投足估计最后悲剧的概率有多大


  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值