概率论入门
导论
概率论解决随机问题的本质,就是把局部的随机性转变为整体上的确定性。概率论的产生,能让我们对未来随机事件发生做出数学上的确定性判断。这是概率论的思想基石䦹概率论作为一种数学工具的基本思路。正式基于这种整体的、全局性的思考框架,概率论才成为众多学科的基础。同样的,对生活中的随机事情,概率论也能做出正确的判断。
在量子力学中,薛定谔的猫我们无法确定下一秒是状态,但我们知道它有三种情况;对冲基金中,我们不知道明天是涨还是跌,但在基金公司的模型里,套利收益的预期是确定的;买彩票,我们不知道开奖数字是什么,但彩票公司彩票的中奖概率是确定的。概率论不是帮你预测下一秒会发生什么,而是为你刻画世界整体的确定性,某一次的结果是随机的,是低层次的事,而概率论,是高层次的、确定性的认知
随机
随机性和不确定性
随机性和不确定性是两个不同的概念
- 随机性:是指事件发生的情况是知道的,只是不知道下次出现的情况,如灰犀牛,灰犀牛在世界上有这种动物,只是不知道什么时候发生
- 不确定性: 是指事件会发生什么情况都不知道,例如黑天鹅事件,在我们的认知里没有天鹅是黑色情况,但实实在在发生了,这种就是不确定性。
- 关系:不确定性包含随机性,随机性是不确定性的一种。
所以要清楚概率论要解决是随机性问题,而不是不确定性问题。随机事件结果选项是可知的,是概率论发挥作用的基础
真随机、伪随机和效果随机
了解了随机是不可预测的,我们要进一步了解随机的内部
最高层面的随机当然是真随机,在逻辑上就是绝对不可预测,这是数学上的理想状态,例如量子涨落,量子理论的“测不准原理”允许空无一物的空间产生少许能量,这个能量的诞生是完全随机的。这种真随机的现象是在现实世界不存在的
我们在现实生活中遇到的各种随机问题,基本都是效果随机。生活中还有一些现象是典型的的“伪随机”,特点是伪随机一定有规律,比如我们越想制造随机,我们的主观性就越强,这样制造出来的随机,往往就是伪随机。
不管是真随机、效果随机还是伪随机,在我们的生活中发挥重要作用,比如,基因突变是随机的,人类发明了抗某种害虫的转基因作物,在生存压力下,害虫也会发生基因突变去适应环境,转基因作物很快失去效果,如果利用随机,我们可以在转基因作物旁边种一块正常作物的区域,让这片区域的害虫进行正常的随机的基因突变,来降低他们的进化出抗虫性基因的概率,
总结: 绝对意义上的真随机存在于量子层面,现实中很难遇到;伪随机只是披着随机的外衣,它本身是有规律的,而现实中遇到的大部分现象,都是效果随机,这也是概率论这门学科研究的重点
概率
概率是随机事件发生可能性的定量描述
-
概率是随机事件发生可能性大小的定量描述
-
随机事件是概率论的一种表述方式,只有符合这种表述方式,才能度量它的概率。任何你关心的事情,只要设定一个条件,从可能性的角度出发,对一个发生结果进行陈述,就可以转化成随机事件,然后度量概率。
- 设定一个条件
- 从可能性角度出发
- 对某个发生结果的陈述
随机是随机事件在样本空间的比率
上面的三个条件是为了划分出样本空间,所以样本空间是所有可能发生的结果。
随机事件是样本空间众多结果的一种,换句话说,随机事件就是样本空间的一个子集;反过来也成立,样本空间里的每一个子集,也都是一个随机事件,随机事件和样本空间是子集和全集的关系,概率就是子集和全集的比率
由此我们可以推导出概率的三个性质
- 概率永远在0-1之间,不可能是负数
- 样本空间里所有基本事件概率之和是1
- 某个随机事件不发生概率,等于1减去这件事件发生的概率
样本空间的完备性
因为概率是随机事件在样本空间中的比率,所以我们计算概率的前提是什么?当然就是保证样本空间的完备性。也就是说,要找到所有可能发生的结果。如果样本空间压根不完备,那你算出的概率一定是错的。但问题是,样本空间的完备性是一个幽灵,很难获得。
明白了这一点,就会理解现实的很多问题,比如经济领域的“黑天鹅事件”,它的本质是出现黑天鹅的这种随机事件没有纳入到样本空间中,只有它发生了,我们才能计算它的概率。从某种角度来说,我们对世界的认识,就是对样本空间完备性的认识,决定恒星运动的力有多少种,股票涨跌的影响因子有多少种,每一次突破性进展,其实都是在完善我们的样本空间
独立性
独立性描述的是随机事件之间的相互关系,只有明白了一个随机事件和其他随机事件的关系,判断它们之间是否具有独立性,才能正确分析和度量它的概率
随机事件的两种关系
如果随机事件之间没有任何关联,我们就可以说这些随机事件是相互独立的,它们之间就相互独立,具备独立性的随机事件叫做“独立事件”
抛硬币连着扔了5次正面了,下一次硬币出现正面的概率肯定更小,出现反面的概率更大了。这个判断对吗?不对。这就是“赌徒谬误”。
当然,你也可能会逆向思维,知道既然前5次都是正面,下一次很可能继续是正面。这个判断对不对呢?也不对,这就犯了另一个错误,叫“热手谬误”。因为抛硬币的样本空间只有两种结果,哪种结果都是1/2,这是典型的独立事件
两个随机事件相互独立,在概率论中说的就是,一个随机事件的发生,不影响另一个随机事件发生的概率。也就是说,下一个随机事件发生的可能性,不会被上一个随机事件所影响。这就是随机事件之间的独立性。而如果两个随机事件之间有影响,那它们之间就是非独立的
要么具有独立性,要么具有非独立性,概率论研究的所有对象——随机事件之间,只有这两种关系
事件的独立性本质
事实上,识别随机事件的独立性是非常困难的,如2013年,英国一个叫约翰的人去超市买了一盒鸡蛋,连磕6个鸡蛋都是双黄蛋,当时英国有机构输几局显示1000个蛋中才会出现1个双黄蛋,连磕6个都是,也就是1/1000的6次方,如果一秒磕一个鸡蛋,也要磕上317亿年,按说理论计算与事实不应该有如此大的差别,肯定是前提错了,我们之前的假设是事件相互独立的,需要将影响连续磕出6个双黄蛋的因素纳入进去,母鸡的原因,鸡蛋批次的原因,工作人员或者机器的原因等等
很多我们以为的独立事件,也许并不具有独立性。像这个鸡蛋是双黄蛋和那个鸡蛋是双黄蛋,这样两个看起来毫不相关的事件,都因为鸡蛋个头的大小,被扯上了千丝万缕的联系
独立事件,知识我们描述某些随机事件的数学模型罢了
概率计算
概率计算的三个法则
排列组合法则
排列组合法则使用于结果有限,而且每种结果都是等可能性的情况
大部分这类的概率问题,考的都不是你的计算能力,而是排列组合的能力,看你能不能吧所有情况都排出来
加法法则
如果说排列组合法则是针对单个随机事件的概率计算,加法法则针对的就是多个随机事件。以两个随机事件为例,一个随机事件发生或者另一个随机事件发生的概率,也就是这两个随机事件发生其一的概率,等于两个随机事件各自发生概率的和。三个随机事件,就是三个概率之和;四个随机事件,就是四个概率之和。这就是加法法则
乘法法则
和加法法则一样,乘法法则也是针对多个随机事件的概率计算。以两个随机事件为例,加法法则是两个随机事件发生其一的概率,将两个随机事件各自发生的概率相加。而乘法法则是两个独立事件同时发生的概率,将两个随机事件各自发生的概率相乘就行了
不过,乘法法则也有个限定条件,得是独立事件。如果是独立事件,彼此互不影响,可以直接使用乘法法则。如果是非独立事件,那就不能直接乘了,而是要对乘法法则做个变形。具体怎么变,我们后面讲条件概率时会详细解释
概率计算的真正困难是定义问题,正确翻译现实问题,是概率计算最复杂的地方。概率思维的核心,就是准确地将现实问题转换成对的概率问题
看到飞机失事的新闻后,有些人常常开玩笑地说,“从概率的角度,下一班飞机更安全。因为如果飞机失事的概率是百万分之一,那么飞机连续两次失事的概率就是百万分之一乘以百万分之一,也就是万亿分之一。”你可能要笑了,这就是典型的“赌徒谬误”嘛。一般人认为,赌徒谬误产生的原因是人们没弄懂独立事件。但我要告诉你的是,即便弄懂了独立性,知道两个航班互相独立,很多人还是会算错,因为这些人对现实问题“翻译得不对”。他们混淆了“飞机失事两次的概率”和“飞机再次失事的概率”。注意,这两个看似差不多的表述差别是很大
概率度量
常用的度量概率的方法有三种——定义法、频率法、迭代法
-
定义法
定义法就是直接定义,直接认为某件事不同结果出现的可能性是相等的,没有任何一个结果比其他结果更有可能发生。比如抛硬币和掷骰子从现在的角度来看,定义法有很多不可靠谱的地方,这是概率论刚起步的时候,对概率的认知有局限,古典概率就是这样一种等可能行的概率定义法。虽然定义法的定义简单粗暴,但在宏观尺度上,它是一种对现实时间的合理简化,还是有一定的科学性的
影响硬币在空中的状态的因素太多了,硬币的密度、形状、出手的角度、风向等,都有影响,完全搞明白很难。一方面可能这些因素影响很小,另一方面各个因素的影响又会相互抵消,所以我们就全部忽略这些,把它简化成没有其他因素影响的理想状态。这不就是一个合理的简化吗 -
频率法
随着概率论的发展,定义法出现不适用的情况,比如,一批产品的合格率,考试的通过概率等,再用定义法“一半对一半”就很荒谬了,所以频率法出现
频率法是只要数据足够大,一个随机事件发生的频率就会无限接近它发生的概率,这种依靠大量数据获得真相的思路,是现代统计学的基础,广泛地应用在各个学科之中 -
迭代法
频率法也存在局限性,首先是有些事是没法试的,其次很多事不断发展,它的概率是不断变化的,最后很多问题还和个体的差异有关,为了解决这些问题,出现了迭代法
**迭代法是先利用手头少量的数据做推测,甚至是主观猜测一件事的概率,然后在通过收集来得新数据,不断调整对这件事概率的估算,也就是“贝叶斯”**方法
定义法,是通过自然世界的对称性来定义概率
频率法,是用随机事件发生的频率来计算概率
迭代法,是用一种动态发展的、考虑个人差异的角度来度量概率
频率法
概率就是对发生频率的计算
一个随机事件出现的次数除以整体事件的次数,得到的值就是这个随机事件发生的频率。频率法就认为,在有足够多的数据的情况下,随机事件发生的频率会无限接近它真实的概率
频率法在试验上被验证
有很多数学家跑了几千几万次硬币,并把结果记录了下来,结果显示,当跑了成千上万次后,硬币正面朝上的频率确实会非常接近50%。
频率法在数学上被证明
数学要的不是经验,而是完完全全的证明,雅各布·伯努利证明了只要重复的实验或者观测的数据局足够多,随机事件发生的频率就会无限接近它的概率,这就是“大数定律”
正因为在数学上证明了大数定律,才从根本上确认了用频率度量概率是合理的,再深入一店,大数定律也证明了:在相同环境、重复试验的条件下,用历史数据预测未来是可行的,也是合理的。这就是统计学的根基,也是很多使用统计学方法进行研究的学科的根基
大数定律是一个数学上“无限”的概念,类似于“无穷大”“无穷小”,是一种理想状态,为了让大数定律在真实生活中发挥作用,需要做些条件限制,让重复次数或者采集的数据局变成有限的,对此,数学家专门设置了两个概念精度误差和“置信度”
- 精度误差
数学家们抛硬币的结果,并不是刚好等于理想的50%,这个和理想值之间的差距,就是精度误差。假如你抛出正面朝上的频率是在47%-53%之间,那么精度误差就是±3% - 置信度
针对这±3%的误差率,做100组试验,或者统计学上叫100组样本,如果有95组样本算出来的频率,正好在这个精度误差的范围之内,我们就称之为95%的“置信度”。
通过这两个限定,我们在用频率度量概率的时候可以大幅减少实验的次数或者采集的数据量,比如。99.9%的置信度和2%的精度误差,就可以把重复的次数从无限降低到7000次左右;如果把置信度下降到95%,重复次数可以降低到2500次左右;如果再放宽点标准,把精度误差从2%变成3%,试验次数可以下降到1000次左右。95%的置信度已经成为许多学科,比如经济学、医学的实际参考标准,民意调查
现实中,几乎所有的数据调查和统计及结果,一方面,都是基于频率来测量概率的底层逻辑,另一方面,也都要进行相应程度的妥协
大数定律
大数定律证明了整体的确定性
-
弱大数定律
雅各布花20年时间证明弱大数定律。弱大数定律是指试验的数量越多,频率接近真实概率的可能性越大。注意,这里说的是“可能性”。也就是说,弱大数定律只证明了,随着数据的增加,频率接近概率的可能性越来越大,而不是100%的一定接近。这在数学上有个专业的名词,叫“依概率收敛”。 -
强大数定律
苏联数学家、概率论的先驱柯尔莫哥洛夫(Kolmogorov)在雅各布的基础上,做出了更加严密的证明,也就是“强大数定律”。
大数定律又被称为“黄金定理”,它让我们真正能用整体的确定性来对抗局部的随机性
现实中的频率都是局部频率
当数据有限的时候,局部频率和整体概率之间是有误差的。只有随着数据量的增加,局部频率才会越来越接近于整体概率。大数定律就像一根绳索,用整体的确定性约束着局部的随机性,随着数据的增加把频率这个口袋越勒越紧。
整体不需要对局部进行补偿
整体不需要通过补偿对局部产生作用,大数定律通过大量的正常数据,削弱那部分异常数据的影响。正常数据越多,异常数据的影响越小,直达小到可以忽略不计
比如,我们抛10次硬币,正面的概率可能是70%,有的人会认为下次抛会是反面,这样才能趋近平均值,这是“补偿思维”,这其实是不正确的,我们只需要增加次数,到1000次的时候可能下降到50.5%,在增加可能下降到50.05%
整体通过均值回归对局部起作用
均值回归的意思是说,如果一个数据和它的正常状态偏差很大,那么它向正常状态回归的概率就会变大。现实中,均值回归的例子很多。比如,身高特别高的人,孩子往往不如他高;连续几年超高收益率的基金经理,后几年往往神奇不在……
均值回归更准确的叫法应该是“趋均值回归”,趋向均值的方向回归。所以它产生作用的对象,是那些特殊的、异常的、极端的数据。这些异常的状态是没法长期持续的,所以回归正常值的概率会变大。不过,至于是比正常值稍微高一些,还是稍微低一些,都有可能,完全是随机的。
总之,大数定律不需要补偿,而是通过均值回归,通过产生大量的正常数据,削弱之前异常数据的影响
数学期望
数学期望简称期望,计算方法很简单,就是对随机事件不同结果的概率加权求平均
判断一件事情的长期价值,就用数学期望,比如计算投篮得分,篮下命中得2分,平均命中率是55%,中距离命中得2分,平均命中率45%,三分球平均命中率35%,计算各自期望
篮下:2 x 55% + 0 x 45% = 1.1;
中距离:2 x 45% + 0 x 55% = 0.9;
三分球:3 x 35% + 0 x 65% = 1.05。
数学期望之所以有效也是大数定律在背后起作用,大数定律把局部的随机性变成了整体上的确定性,也就是概率,同时数学期望又把概率代表的长期价值变成一个具体的数字
用数学期望衡量长期价值也有一个前提,就是所有随机出现的结果都必须数值化,也就是变成一个具体的数,比如危险系数为10分,给打几分
几乎所有金融产品的价值,比如基金、股票是否值得投资,也都可以使用数学期望来衡量。如果赢的期望超过输的期望,也就是说,如果数学期望是正的,就证明它值得长期投资。这就是金融领域“价值投资”的真谛
同样一件事,在不同人看来,价值也是不一样的。这时候,数学期望对每个个体来说,就都是不一样的。这倒不是因为数学期望的计算方法不同,而是因为不同的人对随机结果赋予的价值不一样。但同时,我们也知道——这种个体的主观考量,只影响数学期望的计算结果,而不妨碍数学期望起作用。比如玩俄罗斯轮盘赌,有的人认为我的命是无价的,这个游戏冒一丁点风险都不值得玩,有的人认为玩这个游戏获得的某些东西超过了生命,就值得玩
方差
数学期望相同,并不代表两件事的价值一样,随机结果的波动程度,同样对一件事的价值,对我们的决策影响巨大。在描述和思考一个随机事件的时候,还需要考虑波动性,也就是房产
随机结果围绕数学期望波动
对于一个随机事件,数学期望因为描述的是长期价值,所以无法反映这种波动性,但方差可以。方差就是通过一个数值定量了这种波动性,弥补了数学期望描述随机事件的不足。
方差公式:结果的值与数学期望之差的平方的均值
标准差公式:方差的平方根, 也是用来描述波动性
方差越大,波动性越大,而风险就是指的波动性,所以方差的本质就是对风险的度量。
如何对抗和利用方差
- 通过增加本钱对抗波动性,可以通过大数定律来理解,增加本钱就是增加试验的次数,试验次数越多,越接近真实概率,异常值会被磨平
- 通过认为设计主动扩大波动性,达到目的。比如彩票,如果在数学期望确定情况下,为了增加买彩票的刺激感,扩大方差,增加波动性
概率分布
随机变量和概率分布
随机变量: 把随机事件可能的结果抽象成一个数字,每个数字对应一个概率。这个随机变化的数字就是随机变量
引入随机变量,把现实世界的概率问题与数学打通了。要寻找一个随机时间的规律,直接分析随机变量这个具体数字的变量情况即可
把随机变量的所有结果及其对应的概率全部统计出来后呈现出概率分布
通过从整体上描述一个随机事件所有可能的结果和对应的概率分布情况,我们就能像上帝俯瞰世界一样,从整体上把握这件事的基本轮廓,也就为进一步探索其中的规律提供了可能。
用模型代表现实世界的规律
每一个随机事件都有自己的概率分布。随机事件不同,概率分布自然不同,数学家们发现概率分布是有规律可循的。比如人的身高和智商,看起来毫不相关,但它们的分布情况符合正态分布,都是正常水平的比较多,而特别高和特别低的非常少。再比如地震,小规模的地震数量很多,但破坏性很小;大规模的地震数量很少,但破坏性很大,这和个人财富的分布状况又比较一致,这种情况符合幂律分布
这些模型可以用数学公式、列表、图来表示,三种方式各有优缺点。列表很直观,但来回查表比较繁琐;画图很形象,但看图时往往会有一些误差;公式很简洁,也很精确,但门槛比较高,很多人看不懂
现实世界纷繁复杂,各种随机变量数不胜数。但在概率学家眼里,它们只分为两类——一类是已经找到了变化规律,可以用概率分布模型描述的;另一类是还没有找到变化规律,无法用概率分布模型描述的。
对于规律相似的同一类现象,概率分布模型只有一个,只是模型中的参数不同。比如人的身高和智商,它们的规律就很相似,都服从正态分布,只是各自的均值和方差不一样。同样的,地震和个人财富大体上都服从幂律分布,只是对应的幂指数不同。
一般情况下,面对一个无法解释的现象,专家会先假设它服从某个概率分布模型,然后去验证假设。比如股市问题,过去认为符合正态分布模型,但金融危机爆发,市场不遵循正态分布规律,意识到选错了模型,注意,模型本身是不会错的,因为概率分布模型是逻辑的产物,是符合数学规律的,百分百正确的,经过分析后用柯西分布更有效。
概率分布如同一个工具箱,而概率分布模型就好比是解决问题的工具。
正态分布
正态分布也称高斯分布,1801年德国数学家用正态分布计算出第一颗矮行星–谷神星的运行轨道并在指定位置找到它,正态分布适用于众多领域,比如数学、统计学、物理学、工程学等,而且通过正态分布还可直接推导出对数正态分布、T分布、F分布
正态分布的三个数学特性
-
性质一:均值就是期望:
在正态分布曲线中间最高点的横坐标,不仅代表随机变量的平均值,而且还等于它的数学期望。前边讲过数学期望代表长期价值,而现在的平均值又是数学期望。也就是说在正态分布中,平均值就代表随机事件的价值 -
性质二:极端值很少:
越靠近平均值,这条曲线越高,出现的概率越大;越远离平均值,这条曲线就越低,出现的概率越小,这就说明正态分布的大多数数据都集中在平均值附近,极端值很少
极端值很少有两层含义:- 极端值出现的概率很低
- 极端值对对均值的影响很小
因此正态分布是很稳定的,比如人的身高,它大体服从正态分布,即使有几个很高的人加入进去,我们的平均身高也不会有很大的变化
-
性质三:标准差决定胖瘦:
在正态分布中,标准差越大,数据的波动越剧烈,钟型曲线越矮胖;标准差越小,数据越集中,钟型曲线越高瘦
正态分布的现实应用
日常生活中,正态分布的应用随处可见。
当你打开电脑时,某产品会告诉你,“你的开机时间23秒,打败了全国97%的用户”。“23秒”你可能没概念,但“打败了全国97%的用户”一下子就让会你明白快还是慢。不过你有没有想过,这个97%是怎么来的?是要把全国每台电脑的开机时间都收集起来,做个排序吗?这太复杂了吧?
其实不是这样的。他们只是构建了一个正态分布的模型而已。
我们知道,大部分电脑的开机速度都差不多,只有小部分快一点或慢一点,可以认为它服从正态分布。而刚才说了,正态分布很简单,只要均值和标准差两个数据就能完全确定。所以,只要随机抽取一部分用户的开机数据,算出均值和标准差,就可以确定一条正态分布曲线。
而在正态分布中,一个标准差覆盖68.26%的数据,两个标准差覆盖95.44%的数据……都是一一对应、完全确定的
不同的正态分布曲线之间的比较
-
第一,只有均值不同,能比较好坏
比如两条生产线制造的产品,标准差一致,怎么比较呢?当然是平均合格率越高,品控做得越好。前面说了,正态分布里均值等于期望,就代表长期价值。 -
第二,只有标准差不同,能比较波动
从整体上看,男女智商没有高低之分,男性并不比女性更聪明;但男性的智商波动更大——在智商超群的人中间,男性的数量要多于女性;当然,智商堪忧的人中间,男性也同样更多。 -
第三,标准差和均值都不同,能比较专业和业余
如果常人与专业运动员打靶比赛,结果常人的变化极大,有时候蒙中10环,有时候脱靶,大多数可能都是3、4环;而专业运动员肯定特别稳定,基本都是10环。均值上,他更高,成绩更好;标准差上,他更小,成绩更稳定。这就说明,专业运动员专业得多。
其他人总是用“刻意练习”“精准”等来评价专业和业余,但在数学家看来,这些词都太模糊。真正精确的标准只有两个——均值和标准差。专业就是均值更高,标准差更小,业余恰恰相反
中心极限定理
性质: 大量独立的随机变量相加,无论各个随机变量的分布如何,它们相加的结果必定会趋向正态分布。换句话说,正态分布是必然发生的
高斯通过正态分布算出了谷神星的位置,但高斯的推导逻辑有些问题,首先,他假设误差的最大可能性恰好等于平均值,推导出了正态分布公式;接下来,他又用正态分布公式计算出,误差的最大可能性恰好等于平均值,然后才有后面的计算。这多少有点循环论证的意思。所以很多科学家说,高斯是猜到了上帝的意图。注意,是“猜到了”
最终拉普拉斯用严谨的数学推导出中心极限定理,不仅证明了正态分布产生的方式,还揭示了正态分布普遍存在的原因
中心极限定理是因,正态分布是果
- 正态分布普遍存在
中心极限定理告诉我们,只要随机事件有很多独立的因素共同作用,无论每个因素本身是什么分布,这个随机事件最终都会形成正态分布。所以,正态分布具有普遍意义 - 所有分布最终都会变成正态分布
现实世界里,影响一个随机事件的各种因素,不可能完全是理想状态下的相互独立,而是相互交缠,相互影响的,所以一切都还在演化的路上。 - 正态分布是世界的宿命
在中心极限定理之后,信息论领域发现了‘熵最大原理’。也就是说,在一个孤立的系统中,熵值是不断增大的,而巧合的是,正态分布就是所有已知均值和方差的分布中,信息熵最大的一种分布。如果熵不断增长是孤立系统正确的演化方向,那熵的最大化,也就是正态分布,就是孤立系统演化的必然结果,是这个世界的宿命。看上去似乎很美好,但细思极恐,什么叫熵增?就是从有序趋向无序。熵增的重点,是完全死寂、混沌一片的状态。
幂律分布
如果这个世界完全被正态分布主宰,就没与人类历史上的伟大故事,所以幂律分布的存在给世界增加了一些活力
无标度:幂律分布的数学特征
二八法则,也叫帕累托法则,是幂律分布最直观的表现
图中的横坐标代表随机变量的取值;纵坐标,代表发生的概率。而幂律分布是一条向下的曲线,含义是-----在随机变量中,越小的数值,出现的概率越大;越大的值,出现的概率则越小
无标度,也叫“无尺度”“尺度无关”,这是唯一的数学特征,意思是—在任何情况下,幂律分布都呈现同样的分布特征
一般的分布都会有个尺度范围,在这个范围内服从此分布,超过这个尺度就不服从这种分布了。而幂律分布没有尺度的限制,不管截取任何一部分,都呈现幂律分布的特征
比如,图书销量是服从幂律分布的,最畅销那本书的销量在前10名销量中占的比例,和前10名的销量在前100名的销量中占的比例,和前100名在前1000名的总销量中占的比例,大体都是相同的。
幂律分布无法预测
- 幂律分布让平均数失去意义
正态分布是一种均匀对称分布,大多数数据都集中在平均值附近,所以平均值非常有用;而幂律分布的数据变化幅度非常大,平均值毫无意义
比如,小布什在竞选演说中说2003年减税计划让每个美国家庭平均少纳税1586美元,从数字上没有撒谎,但他具有极强的误导性,因为财富是符合幂律分布的,是高度不对称的。大部分普通家庭本身收入不高,减税的很有限;小部分极高收入家庭,可能会获得几万或者几十万的减税额度,一下子就把平均值拉高,事实上,当年的减税中位数是650美元 - 幂律分布让原本不会发生的极端事件发生
在数学上,这个叫“长尾”,也叫肥尾、厚尾。简单说就是,虽然极端数据出现的概率很低,但这个概率永远不趋近于0,永远不会小到可以忽略不计。
在幂律分布里,极端数据往往意味着极端事件。而极端事件,比如超大型海啸、超强大地震、席卷全球的金融风暴等,都会给人带来非常大的损失 - 幂律分布完全不可预测
幂律分布到目前为止,是完全无法预测的,没有一个有效的预测模型
比如著名的“沙堆模型”,在平台上不断添加沙粒,慢慢形成一个沙堆,随着沙堆高度的增加,新添加的沙粒会带动沙堆表面的其他沙粒滚落,产生所谓的“沙崩”。统计沙崩的规模和发生的频率,发现符合幂律分布。
所有物理知识我们都掌握,而且能用计算机跟踪每一粒沙子的位置,但仍然找不到沙堆崩塌的原因。我们既不知道在什么条件下,再放一粒沙子就会导致沙崩,也无法预测这粒沙子导致的沙崩规模会有多大。所以到目前,我们对于幂律分布,比如说各种自然灾害,基本还是束手无策
你可能会说,不是有“二八法则”吗?我们抓重点,抓住重要的20%不就好了吗?可能很多人都会这么告诉你,但我想说的是——这是个存量思维,可以总结过去,却对未来没有用。因为虽然我们知道80%的生意来自于20%的客户,但永远不知道下一个客户是属于重要的20%,还是不重要的80%。还是那句话,幂律分布不可预测。
我们知道大灾难影响很大,而且一定会来,却不知道下一场大地震、下一场森林大火、下一场战争、下一次金融危机会什么时候发生,以及会带来多大的损失。我们知道公司市值、电影票房、社会财富的分布极不均匀,却寻找不到方法规避风险。这真是让人绝望。
幂律分布的启示
幂律分布产生的原因,目前没有统一的答案。各种解释众说纷纭,谁也说服不了谁。其中一个比较主流,是1982年诺贝尔物理学奖得主肯尼斯·威尔逊的观点。因为这个研究给人类对抗熵增,对抗世界的宿命,提供了新的希望
威尔逊的研究突破,源于水变成冰这个常见的生活现象。他发现,在水变成冰的过程中,存在一个神奇的临界温度——在临界温度之前,水分子里原子的自旋都是随机指向不同的方向;可一旦到了临界温度,就会非常有序地指向同一个方向
威尔逊收集了很多临界态一瞬间的关键数据,结果发现,每个指标都在临界态附近涌现出了幂律分布。换句话说,在水变成冰,也就是从无序到有序的临界状态上,所有指标都呈现出幂律分布的现象。而我们知道,无序是熵值最大,有序是熵值最小,所以这也就说明,在从无序到有序这个熵减的过程中,幂律分布必然发生。
如果这个理论是幂律分布产生的原因,那幂律分布就是我们对抗熵增的必经状态。只要一个生命还存在,一个系统还在演化,它就必然在做熵减的工作,所以出现幂律分布也就不足为奇。这也正好解释了正态分布和幂律分布在生活里都很常见,秒杀其他分布的原因。虽然幂律分布像魔鬼一样狡诈、难以预料,但它可能是我们对抗熵增的必然选择,是每个系统从无序到有序,从混沌到清晰,从未知世界到规律世界的必经之路。幂律分布存在的地方,看似凶险,却恰恰是对抗熵增,对抗死寂,对抗死亡的角斗场,是我们的希望之光。
泊松分布
先看一个例子,连续几年城区被淹,引起市民投诉,市政部门给出的解释是修建下水系统按50年一遇的标准建的,这是非常高的标准,市政部门给出的解释成立吗?
泊松分布的公式及意义
“五十年一遇”,转化为数学语言是指,长期来看,这样的大暴雨是平均50年发生一次。注意,这里的时空范围是“长期”,长期是多长?很长很长。这不是玩文字游戏,而是提醒注意——对长期理解不到位,是概率问题的结果经常反直觉的关键。
平均50年发生一次,会不会是每隔50年发生一次?有可能,但不一定。我们再设定一种情况,前4年每年都发生一次,之后的196年一次都没有,200除以4,还是50年一次,与“五十年一遇”并不冲突。
所以,真正的问题来了:当我们知道了五十年一遇这个长期的整体概率,注意是“长期的概率”,但我们想要知道的是,任何一段具体的、有限的时间内,比如5年之内,发生1次大暴雨的概率是多少?发生2次大暴雨的概率是多少?发生3次、4次……任何你想知道的大暴雨的次数,它们的概率分别是多少,这时候这么办呢?
我们把问题再抽象一下,这一类问题其实是——当我们知道了一个随机事件发生的整体概率,也知道这个随机事件发生的概率符合正态分布之后,那么在某一段时间或者空间间隔内,这个随机事件发生的次数的概率分布是什么呢?再说一遍,不是求解整体发生率,而是求发生次数的概率。
概率学家来解决这种问题的工具就是“泊松分布”,公式:
意思就是 随机事件在试验第k次的时候发生的概率
泊松分布的数学性质
- 性质一:泊松分布是正态分布的一种微观视角
- 性质二:泊松分布的间隔是无记忆性的
之前的情况对之后的情况没有影响。所以间隔的无记忆性就是指,前一间隔中随机事件是否发生对后一间隔中随机事件是否发生没有影响
像连续大暴雨这种小概率事件扎堆出现的现象,看起来很反直觉。但现在我们知道,由于泊松分布间隔的无记忆性,所以一定存在一些短间隔和长间隔,而且它们很难一长一短、一长一短这样有规律的出现,而是会混杂着出现,否则就不叫随机了
泊松分布开启了统计推断的大门
比如物理学家要研究放射性物质的半衰期。可是,绝大多数物质衰变期极长,长到我们没法直接测量。比如铋209原子的半衰期是1.9x10的19次方年,如果你盯着一个铋原子,想看到它衰变,可能看到宇宙毁灭都够呛。这时候数据太少了,连一个完整的衰变周期都观测不到。怎么办呢?
我们可以假设衰变是服从正态分布的吗?当然可以。但是,连一个完整的衰变周期都看不全,怎么去验证这个假设呢?
用泊松分布解决。
找一堆铋209原子,统计一下在几个确定的时间间隔中,这堆原子有多少个发生了衰变。只要这个数字服从泊松分布,反过来就证明铋209原子的衰变服从正态分布,就可以用正态分布直接计算。
利用同样的原理,科学家们成功完成了像DNA的突变次数、外太空某个区域内恒星的数量等一系列科学问题的计算,推动了物理学、生物学、天文学等科学领域的发展。
在这些问题的解决中,统计数据和概率论的概率分布就被连在了一起。通过这种连接,我们对这些事情做出了科学的推断。到这里,统计学完成了一次跨越——
在泊松分布之前,概率和统计是两个不同的学科。概率研究未发生的随机事件,统计描述已发生的现实。换句话说,那会儿只有描述统计,没有推断统计。泊松分布开启了推断统计的大门,第一次把概率和统计连接在一起,不仅让统计学变得更有力量,也促进了其他科学的发展。
假设检验
基于概率反证法的统计推断
简单来说,如果能证明一个结论发生的概率特别小,就可以个推翻这个结论,接收和它相反的结论,这个推断的过程就叫“假设检验”。
假设检验,包含假设和检验两个部分。首先,我们先选择一个假设,随便选择一个就行,然后再去验证这个假设。假设分为原假设(H0)和备择假设(H1),有了假设我们再去验证这个假设,验证的标准是什么,很多情况下,这个标准都是5%,如果原假设的概率控制在5%以内,原假设就成立。
- H0(零假设)和H1(备择假设)
这一对假设可以自己设定,只要相互对立就行 - P值
P值是在H0这个假设下,当前现象以及更极端现象出现的概率
如果P值特别大,我们就不能推翻H0这个假设,更不能相信H1,;而如果P值特别小,就可以认为H0几乎不可能发生,转而去相信H1,那P值多大,H0才能不被推翻?或者反过来说,P值小到什么程度H0就可以被推翻,对面H1这个假设就成立了呢?这个标准就是——显著性水平 - 显著性水平
你可以把显著性水平想象成一把刀,一刀剁下去,刀这边是“不能推翻H0”,刀那边是“推翻H0,接受H1”。
至于这把刀具体剁在哪儿,是往左一点还会往右一点,一般学界是有标准的,用得最多的就是5%。只要P值小于5%,就推翻H0,相信H1;如果P值大于5%,就没办法推翻H0。当然,也有一些领域觉得5%这个标准太宽泛了,就设置成了1%。甚至像物理学在发现粒子等问题上,执行的这个标准是百万分之一,要严格得多。
总之,显著性水平要依领域而定,每个领域都有自己的共同体标准。
概率分布是假设检验的基础
比如,菲律宾一个男人身高一米七,请问这人在菲律宾是高个还是矮个呢?这时候,当然可以用假设检验来推理,但请问P值是多少?
这时候我们压根没法计算。都统计一遍浪费时间和成本,那怎么办呢?
答案是,用概率分布。
找出菲律宾男人身高的分布图。我们知道,图里横坐标代表身高,纵坐标就代表概率。还记得P值的定义吗?就是在H0这个假设下,当前现象以及更极端现象出现的概率。所以相应的,图中身高一米七及以上的人的概率,也就是P值,自然就代表这群人的比例。
如果一米七及以上的男人只有10%,那P值就是10%。这个人在身高前10%这个区间里,肯定就算高个了。如果分布变了,一米七及以上的男人占30%呢?这时候P值就变成了30%。还有30%左右的人比这个人高,他就不算高个了吧?
如果我们再把问题换一下:在整个亚洲,这个人算不算高个呢?这时候,就不能看菲律宾男人的身高分布了,得去看亚洲男人身高的分布状况。
你看,分布不一样,问题的适用范围就不一样,得到的判断也不一样。
对于很多复杂的随机事件,需要把随机事件的概率分布图拿出来,并根据在图中的位置确定P值的大小。只有这样,才能和显著性水平比较,才能判断H0能不能被推翻。换句话说,假设检验是基于概率的反证法,而要用概率的反证法,就要用到概率分布。
以概率分布为基础,得到靠谱、有价值的结论,正是概率分布的意义所在。
假设检验的坑
假设假设检验很强大,推动了很多学科的发展,但是,是不是正确使用了假设检验,而且P值特别小,就一定能得到靠谱的结论呢,答案是不一定。
1998年,《柳叶刀》曾发表过一篇论文。在论文作者调查的9个儿童里,有8个都是接种了麻疹疫苗后出现了自闭症。正常儿童患自闭症的概率大概是1%左右,但现在,9个孩子里竟然有8个。这时候,P值小到几乎是零了。于是,经过一番假设检验,论文作者声称,“接种麻疹疫苗会增加孩子患自闭症的风险”。所以很多家长就不给孩子打麻疹疫苗了,美国麻疹疫苗的接种率大幅下降。
但在2010年,事情发生了反转。《柳叶刀》撤销了这篇论文,说论文的结论完全是错的。但是,损失已经无法挽回。美国疾控中心的数据显示:从2001年到2015年,美国未接种麻疹疫苗的儿童数量翻了4倍,沉寂近20年的麻疹卷土重来,很多孩子付出了健康乃至生命的代价。“造谣一张嘴,辟谣跑断腿”,现在还有不少家长相信这个谣言。
- 忽视小概率事件
首先要明白一点,假设检验本身就有瑕疵。可以这样理解,我们的结论,不管是H0还是H1,针对的都是全部、所有、每一个,但我们用来假设检验的,却只是些个别样本。
假设检验中忽视了小概率事件,但不代表小概率事件不会发生。 - 导致系统性偏差
假设检验很容易导致系统性偏差,让人更容易相信一些反常的结论
系统性偏差:
P值的大小是由样本决定的。选择的样本不同,就会得到不同的P值,也就是说,只要不断改变样本,就能不断改变P值,最终总能找到一个非常小的P值,也就能找到一个非常小的P值,就能推翻原假设,得到一个自己想要的结论。这个过程方法没有问题,但会导致系统性偏差
例如著名的邮件骗局,有一小部分人收到分析股票涨跌的邮件,连续10天、20天都是正确的,于是相信发邮件的人是股神,找这个人理财,结果被骗
我们知道,股票一般就只有涨和跌两种状态,如果概率一半一半,那我今天给1000个人发消息,500个发涨,500个发跌。如果明天涨了,再给收到涨的这500个人中的一半发涨,另一半发跌。长此以往,总会有几个人在好多天中,收到的都是完全正确的预测
在这个骗局里,不管我们怎么用假设检验,一定会得到一个非常小的P值,从而推翻原假设,认为这人就是股神。为什么呢?因为我们只能看到那几个一直收到正确消息的人,而看不到还有几百、几千个收到过错误消息的人。就像一座冰山,只看到露出水面的一小部分,却看不到水下的大世界。
科学研究也是一样。很多论文的结论特别颠覆,假设检验的推理过程也没问题,但后来却被证明是错的。一般科学家都会先存疑,然后再分头去重现、去验证?其实就是这个原因。孤证不立嘛,一次试验可能有很大的偶然性,只有很多试验都验证了某个结论,我们才能相信它。也因此,严谨的科学论文中一般不说“我们证明了啥”,而是说“我们认为什么和什么有统计的显著性”
显著性水平设置不好导致的错误
- 显著性水平的设置要跟问题联动
显著性水平是约定俗成的,在不同的领域,需要选择不同的标准,比如,传染病或癌症的早期检查,显著性水平不能设置很高,因为设置过高,会遗漏患病的但没有检查出来的病人,造成的危害要比误诊大的多;疾病的早期检查的显著性水平能用用户物理学研究吗,当然不能,门槛降低,零假设就很容易被推翻,也就很容易得到各种牛鬼蛇神的结论,得到的物理学发现就不靠谱了,所以对于物理学研究门槛要大大的提高
显著性水平的设置要和问题联动,依领域而定。如果在该严的领域放宽了标准,或者在该松的领域设置了过严的标准,就可能导致一些错误 - 用错分布导致错误结论
一般假设检验只用于正态分布,如果一个随机事件明明不是正态分布,却偏要用假设检验,当然会出错
就像国家统计局说,2019年,北京平均月工资是7828.49元。你想判断统计局公布的数据靠不靠谱,能用假设检验吗?可以随机选择50个人,看看他们的平均收入在不在7800元附近吗?当然不能。前面说过,人的收入不服从正态分布,而是服从幂率分布。而幂率分布,根本没有均值和标准差。这时候,再用收入的均值做假设检验就没有意义了。
即使都是正态分布,用不对也一样会错。就像上一讲,明明是菲律宾人的身高问题,你却拿出亚洲人的身高分布做比较,或者拿出菲律宾人的智商分布做比较,分布都不是一个,结果当然也是错的。
条件概率:贝叶斯公式
什么是条件概率
- 条件概率:如果一个随机事件的概率是因为某个条件而产生变化,那在这个条件发生的情况下,这个随机事件发生的概率就是条件概率
- 条件概率公式:P(A│B) = P(AB)/P(B)
其中,P(A│B)为条件概率,表示在B条件下A发生的概率;
P(AB)为事件A、B同时发生的概率;
P(B)为事件B发生的概率。
一切概率都是条件概率
本质上,现实世界所有的概率都是条件概率
操纵条件,改变概率
既然所有概率都是条件概率,那相应的,只要学会操纵这些条件,我们就能改变随机事件发生的概率。往小了说,可以避免自己被套路,陷入别人的骗局;往大了说,可以获得一些别人没有的优势,为自己争取更多的利益。
比如电影《焦点》有个剧情,在赌的时候威尔史密斯能猜到对手心里想的球员号码是55号,怎么做到的呢?其实就是威尔史密斯操纵条件让对手不断看到55数字,灌输到潜意识里,在赌球的时候对手看到长相滑稽的球员穿着他一直看到数字55的球服(这个球员也是威尔史密斯安排的),增大他希望发生情况的概率;
贝叶斯推理
本质上,这些问题和掷骰子、抛硬币是一样的。知道了硬币是公平的,问它正面朝上的概率;知道了骰子是均匀的,问掷出一点的概率……都是知道了“原因”,要去推测“现象”。这类概率问题叫作“正向概率”。
而贝叶斯推理解决的是逆概率问题,知道结果来推导原因
-
贝叶斯推理的基本逻辑
根据新信息不断调整对一个随机事件发生概率的判断。
比如我们去医院看病,医生最开始也不知道我们怎么了,但他们会询问我们哪里不舒服?发烧不发烧?哦,发烧。不过会导致发烧的病多了,普通感冒、流感、扁桃体发炎都有可能。所以医生会接着问,咳嗽不咳嗽?流鼻涕不流鼻涕?身体犯懒不犯懒?甚至还会让你去验血。最终,他会根据验血报告,根据各种病症,判断患者得了什么病,然后对症开药。你看,这就是贝叶斯推理。
贝叶斯推理中,概率本质上是对信心的度量,使我们对某个结果相信程度的的一种定量化的表达 -
贝叶斯推理的两大优势
- 起点不重要,迭代很重要
贝叶斯不是推理一次就完了,它是个反复的过程。每找到一个新信息,就进行一次推理,得到一个新判断。而下一个信息,要么进一步证实我们的判断,要么削弱我们的判断,就要对之前的判断进行调整。这样不断微调、不断微调,慢慢的,结果一定会和真实状况越来越接近。毫不夸张的说,贝叶斯最后一定会无穷逼近于真理。 - 信息越充分,结果越可靠
拿机器学习来说吧,它的底层理论就是贝叶斯。为什么谷歌训练人工智能识别猫和狗时,要给它看成千上万张照片?为什么特斯拉的自动驾驶汽车要进行各种路测,千方百计收集用户开车的数据?就是因为数据越多,供它调整的机会越多,它的计算结果就会越精确,越逼近真相。现在,人工智能识别猫和狗的准确率已经可以达到99%。
其实,手机的面部识别功能也一样。手机扫描我们的面部,比如说捕捉到40个位点的生物特征,它会记住这些特征。如果下一次一扫瞄,有38个特征都符合,很充分,八成是一个人,手机就会判断这人是手机主人,自动开锁。但如果只有3个特征吻合呢?这人是手机主人的概率太低了,手机就会拒绝开机。
- 起点不重要,迭代很重要
生活里,为什么我们总是寻找新信息,争取信息完备?其实就是为了运用尽可能多的信息,提高自己判断的准确率,本质上还是贝叶斯推理。
这其实是一种非常高级的思维模式。起点不重要,迭代很重要,就需要保持充分的开放和积累;而信息越充分,结果越可靠,又要求随时调整、不断逼近真相
贝叶斯计算
贝叶斯公式的由来
贝叶斯公式是贝叶斯提出来。贝叶斯是牧师,副业是搞数学。结果在数学上搞出了名堂,提出了贝叶斯公式。贝叶斯根据条件概率公式推导而来。
条件概率公式为P(B|A)=P(AB)/P(A),所以P(AB)=P(B|A)x P(A)。
改变A和B的顺序得到,P(BA)=P(A|B)x P(B)
P(AB)是AB同时发生的概率,和P(BA)是一样的,P(AB)=P(BA),带入条件概率公式,就得到了著名的贝叶斯公式:
P(A|B)/P(B)=P(B|A)x P(A)-----> P(A|B)=P(B|A)x P(A)/P(B)。
翻译过来就是,现象B出现的情况下事件A发生的概率,等于事件A发生时现象B出现的概率,乘以事件A发生的概率,再除以现象B出现的概率
刚提出来的时候,贝叶斯公式并没有引起太大的轰动;反而是等贝叶斯去世了之后,人们才发现这个公式越来越好用。原因很简单,它能解决上一讲说的逆概率问题。逆概率问题那么多,总得能计算吧?就像计算三角形面积一样,总得有个公式吧?贝叶斯公式就是干这个的。贝叶斯公式的伟大意义就在于,对于逆概率这种难搞的概率问题,我们从此有了简洁的计算公式。
总之,从数学上,贝叶斯并没有发明任何东西,他只是对条件概率公式做了简单变形。如果你相信条件概率公式,就得坚信贝叶斯公式也一定正确。
先验概率可以任意设置
拿酒驾出交通事故为例:
P(A|B)=P(B|A)x P(A)/P(B)
P(A): 出交通事故的概率
P(B): 酒驾的概率
P(A|B): 酒驾条件下出交通事故的概率
P(B|A): 出交通事故条件下是酒驾的概率
P(A)就是先验概率,“先验”就是先于经验,“先验概率”就是在看到新现象、重新计算之前,基于经验甚至主观猜测得到的概率
既然是基于经验和主观猜测,所以先验概率的设置当然就可以任性,既然是基于经验和主观猜测,所以先验概率的设置当然就可以任性,不过话说回来了,虽然先验概率的设置可以任性,但如果和真实情况相差太远,肯定要经过更长的计算过程才能获得相对靠谱的结果,事倍功半。所以,先验概率的设置还是越贴近现实越好,如何设置:
- 根据历史数据设置
- 参考专家意见
- 平均设置概率
调整因子必须客观
P(A|B)和P(B|A)叫做“调整因子”。
酒驾时出交通事故的概率,就是已知是酒驾,问出交通事故的概率。这里,酒驾就是现象B,出交通事故就是随机事件A,所以P(B)就是人们酒驾的概率,而P(B|A)就是在出现的交通事故中司机酒驾的概率。比如每10起交通事故,平均有3起司机是酒驾的,那P(B|A)就是30%。P(B|A)和P(B)这两个数一定是客观的,必须找到具体的客观值,而不能拍脑袋随便设定,这两个数值是通过查出来的。
真正困难的,是确定酒驾的概率。因为酒驾有人被查到了,有人没被查到,这怎么算呢?其实,有一个替代数据可以参考,就是交警经常组织的酒驾检查。你可以把它想象成随机抽样,用检查到的酒驾司机的数量除以检查车辆的总数,大致就是酒驾的概率。贝叶斯计算难度不是在计算本身,而是寻找调整因子的客观数据
关于贝叶斯的争论
频率学派就经常诟病贝叶斯学派。“这么主观,你还是数学吗?你看我们频率法,用的是客观试验的数据,又有大数定律和中心极限定理这两个黄金定理的加持,这才是数学嘛。”
现在问题来了,贝叶斯真的不靠谱吗?频率法真的比贝叶斯更客观、更科学吗?这一讲,我们就探究一下这个问题。
两个方法都正确
先来讲一个例子—三门问题,源于美国一个现场游戏的电视节目,规则是这样,有abc三扇门,其中一扇后面有一辆车,如果这一扇打开赢得车,三选一,中奖概率1/3。但这游戏中间有个有意思的环节,在你做出选择后,如果没有选中,你可以有一次改变之前选择的权利,问你要不要换?
一定要换,因为如果不换,你中奖概率是1/3,而如果换,中奖概率2/3了
贝叶斯公式计算:
事件A是A门有汽车,所以先验概率P(A)就是汽车在A门的概率,很明显,等于1/3。
现象B是额外增加的信息,就是“主持人打开B门”。P(B)就是主持人打开B门的概率。这个计算起来略有点麻烦,得分三种情况考虑——
1)如果A门有汽车,主持人打开B门的概率是1/2;
2)如果B门有汽车,主持人不会打开B门,所以这时候打开B门的概率是0;
3)如果C门有汽车,主持人只能打开B门,所以这时候打开B门的概率是1。
三种情况各占1/3,所以P(B)就是(1/2+0+1)/3=1/2。
而P(B|A)就是“如果汽车在A门,主持人打开B门的概率”。因为汽车在A门,主持人只有B门和C门两个选择,所以P(B|A)就是1/2。
因此,调整因子P(B|A)/P(B)就等于1/2除以1/2,结果是1。
则P(A|B)=P(A)x P(B|A)/P(B),就等于1/3乘以1,结果还是1/3。也就是说,不换门(仍然选择A门)中奖的概率是1/3,换门(改选C门)中奖的概率是2/3。
频率法计算:
进行大量试验,模拟一万次这种情况,看看换门和不换门各自中奖多少次。用电脑模拟下,最后的结果是,不换门中奖的概率确实仍然是1/3,而换门后中奖的概率上升到了2/3。
贝叶斯和频率法的区别
频率法和贝叶斯最大的差异就是两个方法的假设不一样
我们做数学题、物理题,都有基本的、约定俗成的假设,比如不考虑空气阻力,不考虑摩擦力,没有说的条件就不存在等。这和频率法的想法挺像的,认为一切信息是全知的,一定存在一个对所有人都正确的唯一答案。所以对于三门问题,频率法会坚定的认为,一定要换,换了中奖的概率最大。
但是,现实世界不是做题。回到三门问题,你就在游戏的现场,周围各种信息汹涌而来。
在你选择了A门后,你敏锐地发现,主持人打开B门时有一瞬间的犹豫。这时候你就知道,如果C门后面有奖品,主持人会毫不犹豫地打开B门。他犹豫,其实是临时选择到底是打开B门还是打开C门。所以,这两个门后面一定都没有奖品,奖品就在自己选择的A门后,所以不要换。
又或者,你在电视台工作的表弟告诉你,主持人怕被人看出犹豫,早就放弃了临时随机选择,而是上台前就确定了遇到什么情况立即打开哪个门。
面对上面各种各样的情况,我们还能用频率法吗?不能了。因为这些情况太多了,我们没法针对每一种情况都用计算机模拟10000次。这时候,我们只能用贝叶斯方法。随着新的条件和新的信息的加入,不断调整自己的判断。
明白了吗?因为对信息的预设不同,频率法和贝叶斯解决的就不是一类问题。
频率法,更像是做题,必须有明确的、严格的前提约束,严格界定好所有的条件。它假设信息是全知的,每道题都有一个对所有人而言都正确的答案。所以会通过反复的试验,不断逼近最终那个客观概率。过程不重要,达到最终那个客观的结果才重要。
而贝叶斯,是个动态的、反复的过程。每个新信息的加入都要重新进行一遍计算,获得一个新概率。贝叶斯没有什么限制条件,只是在这一次次获得新信息、重新计算的过程中迭代自己的判断。它甚至不认为现实的事儿都有正确答案,因为所谓答案,也是在不断变化的。
打个比方,频率法就像下围棋,对局双方都是完全信息的,每个人都能看到双方棋局的全貌。在某个时刻,一定存在一个最优解,而且对于下棋的双方都是一样的;而贝叶斯更像打麻将,只能看到自己的牌,而看不到别人的牌,参与者获得的是非完全信息。根据局势的不断变化,每个人都会针对自己获得的信息决定怎么打,也许有不一样的最优解和打法
共同解决现实问题
贝叶斯的先验概率可以随意设置,有一定的主观性。但它就完全是主观的吗?贝叶斯公式是根据条件概率公式变形来的,是经过严密的数学推导,是绝对客观、正确无疑的。难道这还不够客观吗?
而同时,虽然频率法一直强调自己是客观的,但刚才说了,它的前提假设是一切信息全知,甚至约减了一切看起来不那么重要的条件。但是,信息全知这个假设是谁告诉我们的?不是我们主观认为的吗?这难道不是一种很强的主观性吗?
确切的说,频率法和贝叶斯这两种方法都是基于严格的数学证明和推导,都是客观的,但在使用的过程中,都会或多或少的产生主观性。
说实话,主观、客观属于哲学讨论的范畴,是认识论的基本问题。在现在的数学领域,应用数学家基本是不太讨论这些问题的,而是两者都用,哪个好用用哪个。
不管是过去,还是在大数据技术非常火的现在,频率法都非常有用,甚至在很多领域可能都是最好的方法。它特别适合解决那些普遍的、通用的、群体性的问题,比如抛硬币、玩德州扑克,或者计算生育率、患病概率、飞机失事率等。毕竟对于这类问题,得到最终那个普适的概率值就好了嘛。
而贝叶斯更适合解决变化的、个体的、无法重复的概率问题,比如明天比赛某球队获胜的概率、发生金融危机的概率,以及人工智能这些技术等。毕竟它衡量的就是信心,而且本身就是通过搜集不同的信息,不断调整、不断迭代的。
而在更多的时候,两个方法并不是泾渭分明,而是混合着使用的。
通常,我们会先用频率法获得先验概率,再用贝叶斯计算某个证据的权重。这时候,频率法就是贝叶斯方法的前提,提供相对靠谱的先验概率。而有些问题,贝叶斯方法又能为频率法提供原始的估算,方便频率法在茫茫的噪音中快速定位问题。这时候,贝叶斯又为频率法提供了支撑。
也许很多年以后,数学家能做出突破,将频率法和贝叶斯融合为一个统一的理论。但现在,用好它就行了。频率法和贝叶斯就像概率论的两个儿子,虽然两个儿子性格不同,但它们常常合作解决现实问题。这就叫“兄弟同心,其利断金”