对贝叶斯公式的简单理解


频率派与贝叶斯派

首先要知道,对概率的不同解读区分了频率派和贝叶斯派。

什么是概率呢?简单来说,概率指的是事件发生的可能性。比如抛一枚硬币,如果有人问你 硬币最终正面向上的概率是多少?你可能脱口而出 P = 1/2。那么我要问你了,这个 1/2 你是怎么得来的?你可能会说这是客观既定的一个事情,因为如果将抛硬币这件事情重复进行多次,那么在所有结果中正面朝上的概率将趋近于 1/2。

也就是说,1/2 这个数值是客观存在的,只要你选择了抛硬币,那么正面朝上的概率就应该是1/2。推广一下,即概率这件事情是客观存在的,是一个确切的数值。

这就是频率派的观点,它们认为,概率是频率在无限多次重复试验下的极限值,它是客观存在的,为此任何的不确定性都只存在于试验数据(即样本)之中,而并不是概率本身的问题,因为概率是一个常数,它可能未知,可能已知,但它最起码值是确定的。因此频率派研究的重心不在概率θ上,而是针对于样本的分布。


但贝叶斯派与之恰恰相反,就拿抛硬币来说,首先就不存在抛硬币无数次这种可能,这只不过是人们在数据上总结出的一种判断,那么你凭什么说它的概率就是1/2呢?贝叶斯派认为,概率只不过是人的一种主观猜测,它会因为人们对某件事情看法的改变而改变。

比如你们班上有一个同学,平日里十分勤奋努力,期末考试结束后,你推算它不挂科的可能性是 90%(主观判断),但是当它突然告诉你它考试那天十分不舒服,发挥有些失常后,这时你再次推算它不挂科的可能性是 80%(主观判断),但是之后它又说【但考试应该没什么问题,有好几道题是我曾经做过的原题】,这时你对他不挂科的推算又更新了,甚至可能上涨到了 95%(主观判断)。你看,我们对他挂科这个事件发生的可能性总是在不断刷新着,并且,随着我们收集到的信息的增多,这个值也会越来越精确。

因此,在贝叶斯派的学术体系中,概率θ是一个随机的值,而样本却是固定的,因此对概率θ的研究才是重心。那么概率θ究竟是怎么被改变的呢?可参照如下思考模式:

先验分布 n(θ) + 样本信息x ⇨ 后验分布 n(θ|x)

从中可以看出,新观察的样本信息将修正人们以前对事物的认知


贝叶斯定理

在贝叶斯定理中有几个重要概念需要事先了解一下,为了让这些概念更好说明,同时也借鉴了网上比较通用的一个实例,因此现假定:

某城市发生了一起汽车撞人后司机逃逸事件,该城市中只有两种颜色的车,其中蓝色占 15%,绿色占 85%。
现定义事件A为肇事司机车辆为蓝色,事件B为肇事车辆为绿色。那么在警方不做任何证据搜集的情况下,P(A) = 15%P(B) =85%
(在贝叶斯体系中,P(A)与P(B)的值都是变量,但我们只需要求出其中一个另一个也就等于间接求出了,因此本例只以求 P(A)为例进行说明。)



但是,事发现场存在一位目击证人,他明确指证了肇事车辆为蓝色,但根据专家在现场的分析,在那种条件下目击证人能分辨出正确颜色的可能性是 80%。

现定义事件E为目击者观察到肇事车为蓝色的事件,P(E)的值暂时还不知道。
(注意P(E)≠80%,分辨出正确颜色与观察到肇事车是蓝色不是一个事件。)


到这里我们暂停一下,要引入概念啦,在这个例子中,把P(A)叫做先验概率,E作为条件,因为有条件(或者叫证据,或者叫样本)的介入,因此P(A)势必会发生变化,即 P(A) ⇨ P(A|E)。我们把 P(A|E)叫做后验概率,其实也就是条件概率。也就是说,先验概率就是事件在引入新的条件之前的概率,而后验概率是引入之后的概率。

好的,继续回到例子上,因为有目击者的出现,因此有了新的证据被引入,但要注意,在贝叶斯体系中,新的证据往往是分为两种情况出现的,因为对于证据的准确性你也需要判断。由于目击者提供的信息只有80% 的可能性,因此你不得不分情况讨论:

一种情况是目击者看到的肇事车是蓝色,肇事车也确实就是蓝色,这种情况的概率为 P(E,A) = 0.8 * 0.15 = 0.12
另一种情况则是目击者看到的肇事车是蓝色,而事实上肇事车却是绿色,它的概率为 P(E,B) = 0.2 * 0.85 = 0.17
于是得到 P(E) = P(E,A) + P(E,B) = P(E,A) + P(E,~A) = 0.12 + 0.17 = 0.29


再插入一个概念,P(E,A)被称为联合概率,即两件事一起发生的概率,同样P(E,B)也是。

而我们要求的是P(A|E),即后验概率,由条件概率的计算公式可得:
P(A|E) = P(A∩E)/P(E) = P(A,E)/P(E) = 0.12/0.29 = 0.41

P(A|E)到这里已经计算完毕,但同时我们应该可以预想到,如果此时再引入一个新的证据X,那么将有 P(A|E) ⇨ P(A|X),此时P(A|E)将会替代原先P(A)的角色,即P(A|E)作为先验概率,而P(A|X)作为后验概率。如果X与E提供的证据一样,那么此时可以算得P(A|X) = 0.73。可以发现随着指证肇事车为蓝色的证据的增多,肇事车为蓝色的概率也随之大大增加。

如上,我们用条件概率完成了求后验概率的问题,尽管这是一个用条件概率解决问题的例子,但该例中却满含着贝叶斯派的基本思想。事实上,对条件概率式进行简单的推导,你就会发现:
在这里插入图片描述

同理有:
在这里插入图片描述

合并整理,得到:
在这里插入图片描述

于是我们得到了另一个求后验概率的式子,如下:
在这里插入图片描述

这其实就是非常著名的贝叶斯公式,不失一般性,得到贝叶斯公式的一般式:
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值