概率论基础 —— 2. 条件概率、全概率、贝叶斯概率公式

条件概率

条件概率是一种比较特殊的概率体系,和我们前面提到过的基本概率(交事件)有所不同。它最大的特点在于事件发生时有一定的限制前提,通常一般是说在事件A发生后,事件B发生的概率。由于极容易弄混条件概率和交事件的区别,所以在实际应用公式时往往会出现错误。

举例来说:

袋里有两个白球,一个黑球,无放回地摸两次。
(1)两次都摸到白球的概率
(2)已知第一次摸到了白球,第二次也摸到白球的概率

为了弄明白这其中的区别,我们来列出两次取球的样本空间。

{W, B}, {W, W}, {B, W}

针对问题(1),我们可以得到

P ( A B ) = P ( 1 s t 白 球 ∩ 2 n d 白 球 ) = C 2 2 C 3 2 = 1 3 P(AB) = P(1st白球 \cap 2nd白球) = \frac{C_2^2}{C_3^2} = \frac{1}{3} P(AB)=P(1st2nd)=C32C22=31

即,从3个样本中选中其中1个样本。而针对问题(2), 由于第一次发生了白色球,并且要求解的是之后也发生白球的概率,拿掉第一次黑球的概率样本,根据(2),我们可以得到

{W, B}, {W, W}

P ( B ∣ A ) = 1 2 P(B | A) = \frac{1}{2} P(BA)=21

条件概率的计算式是

P ( B ∣ A ) = P ( A B ) P ( A ) P(B | A) = \frac{P(AB)}{P(A)} P(BA)=P(A)P(AB)

它表达的是,事件B在事件A已经发生的情况下的概率,我们验证一下,三种样本集合里,第一次拿到白球的概率是 2/3,而P(AB) = 1/3,所以P(B | A) = 1/2。

此外还有类似的,

袋子里有黑球5个,红球5个,且红球中有1个带有记号。从中取1个球,恰好取到红球,且红球是带记号的概率。

P ( 记 号 | 红 球 ) = 1 5 P(记号 | 红球) = \frac{1}{5} P()=51

所以这里的一个关键点,就是取到的球如果不是红球,就一定没有记号;取到有记号的球,一定是红球。

有 记 号 ⇒ 是 红 球 有记号 \Rightarrow 是红球

所以可以看出,从逻辑学角度,这是 p > q 的传递性关系。而对于交事件来说,则不存在这样的关系,A与B,p与q都是独立的事件。

全概率

你可以这样理解一下,所谓的全概率指的是某一事件在不同情况下发生的事件概率求和问题。如何理解呢,比方说这样一个经典的题目:

设某工厂甲、乙、丙三个车间生产同一种产品,产品依次占全厂产量的45%、35%、20%,各车间的次品率依次为4%、2%、5%。
(1)从待出厂产品中任取一件产品检验,求此产品是次品的概率;
(2)若取出产品经检验确是次品,试判断它是由甲车间生产的概率。

第一个问题就是“全概率”问题,也就是说对于一批产品中随机抽检一个产品是次品的概率,但是并不关心次品是从哪里来的。

而第二个问题是“贝叶斯”问题,贝叶斯问题在机器学习中是比较常见的问题,通常用在分类上。简单的说,就是由结果推导原因。举个例子来说,在手写数字识别器,会遇到这样一个问题,就是手写了一个数字,机器识别后判断它是数字几的概率。

首先,先介绍全概率公式

P ( A ) = ∑ i = 0 n P ( B i ) P ( A ∣ B i ) P(A) = \sum_{i=0}^n P(B_i) P(A | B_i) P(A)=i=0nP(Bi)P(ABi)

P(A) 是某事件对所有场合下事件的和, P ( B i ) P(B_i) P(Bi) 就是各场合的贡献率,在上题中就是对应各车间产品的产量;然后 P ( A ∣ B i ) P(A | B_i) P(ABi),可以理解为(A from B)即某事件在该场合下的发生概率,对应于上式即各车间的次品率。

那么我们根据题干可以得到这样一张表

符号 B 1 B_1 B1 生产(甲) B 2 B_2 B2 生产(乙) B 1 B_1 B1 生产(丙)
P ( B i ) P(B_i) P(Bi)45%35%20%
P ( A / B i ) P(A/B_i) P(A/Bi)4%2%5%
P ( B i ) P ( A / B i ) P(B_i)P(A/B_i) P(Bi)P(A/Bi)0.0180.0070.01

那么由上面的全概率公式得到:

P ( A ) = P ( B 1 ) P ( A ∣ B 1 ) + P ( B 2 ) P ( A ∣ B 2 ) + P ( B 3 ) P ( A ∣ B i ) = 0.035 P(A) = P(B_1)P(A | B_1) + P(B_2)P(A | B_2) + P(B_3)P(A | B_i) = 0.035 P(A)=P(B1)P(AB1)+P(B2)P(AB2)+P(B3)P(ABi)=0.035

贝叶斯概率

问题还是一样的:

设某工厂甲、乙、丙三个车间生产同一种产品,产品依次占全厂产量的45%、35%、20%,各车间的次品率依次为4%、2%、5%。
(1)从待出厂产品中任取一件产品检验,求此产品是次品的概率;
(2)若取出产品经检验确是次品,试判断它是由甲车间生产的概率。

正如我在上面已经提到过,贝叶斯解决的由果推因。全概率时其概率表达式 P ( A ∣ B i ) P(A | B_i) P(ABi),可以理解为(A from B)。而贝叶斯时,其概率公式 P ( B i ∣ A ) P(B_i | A) P(BiA), 就可以理解为 (B to A)。

它的表达式如下:

P ( B i ∣ A ) = P ( B i ) P ( A ∣ B i ) P ( A ) P(B_i | A) = \frac{P(B_i) P(A|B_i)}{P(A)} P(BiA)=P(A)P(Bi)P(ABi)

所以针对问题2,我们直接套用公式和表的计算结果,有

P ( B 1 ∣ A ) = P ( B 1 ) P ( A ∣ B 1 ) P ( A ) = 0.45 × 0.04 0.035 = 18 35 P(B_1 | A) = \frac{P(B_1) P(A|B_1)}{P(A)} = \frac{0.45 \times 0.04}{0.035} = \frac{18}{35} P(B1A)=P(A)P(B1)P(AB1)=0.0350.45×0.04=3518

然后看看上面那张表,也就是说假设一共生产了1000件产品,那么有瑕疵的一共有35件,从中抽一个产品,来自甲厂的是这35件中的其中18件,即18/35的概率可能来自甲厂。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值