对贝叶斯公式的简单理解


频率派与贝叶斯派

首先要知道,对概率的不同解读区分了频率派和贝叶斯派。

什么是概率呢?简单来说,概率指的是事件发生的可能性。比如抛一枚硬币,如果有人问你 硬币最终正面向上的概率是多少?你可能脱口而出 P = 1/2。那么我要问你了,这个 1/2 你是怎么得来的?你可能会说这是客观既定的一个事情,因为如果将抛硬币这件事情重复进行多次,那么在所有结果中正面朝上的概率将趋近于 1/2。

也就是说,1/2 这个数值是客观存在的,只要你选择了抛硬币,那么正面朝上的概率就应该是1/2。推广一下,即概率这件事情是客观存在的,是一个确切的数值。

这就是频率派的观点,它们认为,概率是频率在无限多次重复试验下的极限值,它是客观存在的,为此任何的不确定性都只存在于试验数据(即样本)之中,而并不是概率本身的问题,因为概率是一个常数,它可能未知,可能已知,但它最起码值是确定的。因此频率派研究的重心不在概率θ上,而是针对于样本的分布。


但贝叶斯派与之恰恰相反,就拿抛硬币来说,首先就不存在抛硬币无数次这种可能,这只不过是人们在数据上总结出的一种判断,那么你凭什么说它的概率就是1/2呢?贝叶斯派认为,概率只不过是人的一种主观猜测,它会因为人们对某件事情看法的改变而改变。

比如你们班上有一个同学,平日里十分勤奋努力,期末考试结束后,你推算它不挂科的可能性是 90%(主观判断),但是当它突然告诉你它考试那天十分不舒服,发挥有些失常后,这时你再次推算它不挂科的可能性是 80%(主观判断),但是之后它又说【但考试应该没什么问题,有好几道题是我曾经做过的原题】,这时你对他不挂科的推算又更新了,甚至可能上涨到了 95%(主观判断)。你看,我们对他挂科这个事件发生的可能性总是在不断刷新着,并且,随着我们收集到的信息的增多,这个值也会越来越精确。

因此,在贝叶斯派的学术体系中,概率θ是一个随机的值,而样本却是固定的,因此对概率θ的研究才是重心。那么概率θ究竟是怎么被改变的呢?可参照如下思考模式:

先验分布 n(θ) + 样本信息x ⇨ 后验分布 n(θ|x)

从中可以看出,新观察的样本信息将修正人们以前对事物的认知


贝叶斯定理

在贝叶斯定理中有几个重要概念需要事先了解一下,为了让这些概念更好说明,同时也借鉴了网上比较通用的一个实例,因此现假定:

某城市发生了一起汽车撞人后司机逃逸事件,该城市中只有两种颜色的车,其中蓝色占 15%,绿色占 85%。
现定义事件A为肇事司机车辆为蓝色,事件B为肇事车辆为绿色。那么在警方不做任何证据搜集的情况下,P(A) = 15%P(B) =85%
(在贝叶斯体系中,P(A)与P(B)的值都是变量,但我们只需要求出其中一个另一个也就等于间接求出了,因此本例只以求 P(A)为例进行说明。)



但是,事发现场存在一位目击证人,他明确指证了肇事车辆为蓝色,但根据专家在现场的分析,在那种条件下目击证人能分辨出正确颜色的可能性是 80%。

现定义事件E为目击者观察到肇事车为蓝色的事件,P(E)的值暂时还不知道。
(注意P(E)≠80%,分辨出正确颜色与观察到肇事车是蓝色不是一个事件。)


到这里我们暂停一下,要引入概念啦,在这个例子中,把P(A)叫做先验概率,E作为条件,因为有条件(或者叫证据,或者叫样本)的介入,因此P(A)势必会发生变化,即 P(A) ⇨ P(A|E)。我们把 P(A|E)叫做后验概率,其实也就是条件概率。也就是说,先验概率就是事件在引入新的条件之前的概率,而后验概率是引入之后的概率。

好的,继续回到例子上,因为有目击者的出现,因此有了新的证据被引入,但要注意,在贝叶斯体系中,新的证据往往是分为两种情况出现的,因为对于证据的准确性你也需要判断。由于目击者提供的信息只有80% 的可能性,因此你不得不分情况讨论:

一种情况是目击者看到的肇事车是蓝色,肇事车也确实就是蓝色,这种情况的概率为 P(E,A) = 0.8 * 0.15 = 0.12
另一种情况则是目击者看到的肇事车是蓝色,而事实上肇事车却是绿色,它的概率为 P(E,B) = 0.2 * 0.85 = 0.17
于是得到 P(E) = P(E,A) + P(E,B) = P(E,A) + P(E,~A) = 0.12 + 0.17 = 0.29


再插入一个概念,P(E,A)被称为联合概率,即两件事一起发生的概率,同样P(E,B)也是。

而我们要求的是P(A|E),即后验概率,由条件概率的计算公式可得:
P(A|E) = P(A∩E)/P(E) = P(A,E)/P(E) = 0.12/0.29 = 0.41

P(A|E)到这里已经计算完毕,但同时我们应该可以预想到,如果此时再引入一个新的证据X,那么将有 P(A|E) ⇨ P(A|X),此时P(A|E)将会替代原先P(A)的角色,即P(A|E)作为先验概率,而P(A|X)作为后验概率。如果X与E提供的证据一样,那么此时可以算得P(A|X) = 0.73。可以发现随着指证肇事车为蓝色的证据的增多,肇事车为蓝色的概率也随之大大增加。

如上,我们用条件概率完成了求后验概率的问题,尽管这是一个用条件概率解决问题的例子,但该例中却满含着贝叶斯派的基本思想。事实上,对条件概率式进行简单的推导,你就会发现:
在这里插入图片描述

同理有:
在这里插入图片描述

合并整理,得到:
在这里插入图片描述

于是我们得到了另一个求后验概率的式子,如下:
在这里插入图片描述

这其实就是非常著名的贝叶斯公式,不失一般性,得到贝叶斯公式的一般式:
在这里插入图片描述

### 贝叶斯公式上机实验实现与代码示例 贝叶斯公式是一种用于更新概率估计的重要工具,在机器学习和统计学中有广泛应用。以下是基于贝叶斯公式的上机实验设计及其代码示例。 #### 1. 贝叶斯公式的定义 贝叶斯公式的核心在于通过先验概率 \( P(A) \),条件概率 \( P(B|A) \),以及边缘概率 \( P(B) \) 来推导后验概率 \( P(A|B) \)[^6]: \[ P(A|B) = \frac{P(B|A)P(A)}{P(B)} \] 其中: - \( P(A|B) \): 后验概率,表示在事件 B 发生的情况下 A 的发生概率。 - \( P(B|A) \): 条件概率,表示在事件 A 发生的情况下 B 的发生概率。 - \( P(A) \): 先验概率,表示事件 A 自身发生的概率。 - \( P(B) \): 边缘概率,表示事件 B 总体发生的概率。 #### 2. 上机实验的设计思路 为了帮助理解贝叶斯公式的工作原理,可以通过简单的模拟实验来验证其应用。以下是一个典型的例子:假设有一个疾病检测问题,目标是计算某人在测试呈阳性时实际患病的概率[^7]。 #### 3. Python 实现代码示例 下面展示了一个完整的 Python 示例,演示如何利用贝叶斯公式解决上述问题。 ```python # 定义基本概率 prior_A = 0.01 # 假设疾病的发病率 (即先验概率 P(A)) likelihood_B_given_A = 0.95 # 测试阳性的条件下确实患病的概率 (即条件概率 P(B|A)) marginal_B = prior_A * likelihood_B_given_A + (1 - prior_A) * 0.05 # 边际概率 P(B) # 使用贝叶斯公式计算后验概率 P(A|B) posterior_A_given_B = (likelihood_B_given_A * prior_A) / marginal_B print(f"后验概率 P(A|B): {posterior_A_given_B:.4f}") ``` 运行此代码的结果将是该患者在测试呈阳性时真正患有疾病的概率。这种简单而直观的方式有助于初学者快速掌握贝叶斯公式的概念[^8]。 #### 4. 进一步扩展到复杂场景 对于更复杂的建模需求,可以考虑引入 MCMC 方法或其他高级技术来进行参数优化。例如,在 APSIM 模型中使用频率派和贝叶斯派的方法进行参数调整就是一个典型的应用实例[^2]。 --- ###
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值