前言
条件概率就是指在一个事件发生时,另一事件发生的概率。概念虽然简单,在实际在使用的时候经常让人搞混淆,所以本文通过一些示例,详细介绍条件概率。
示例:男女司机交通事故概率
某市有男司机4000名,女司机1000名,上年共发生了250起交通事故,其中男司机造成了210起,女司机造成的事故40起,根据以上数据,求上年发生事故时司机为女性的概率是多少?
设事件 A A A =“司机发生事故概率”,事件 B 1 B_1 B1 =“男司机”,事件 B 2 B_2 B2 = “女司机”,那么有:
- 任何一名司机发生交通事故的概率: P ( A ) = 250 / ( 4000 + 1000 ) = 0.05 P(A)=250/(4000+1000)= 0.05 P(A)=250/(4000+1000)=0.05
- 任意选择一名司机是男性时的概率: P ( B 1 ) = 4000 / ( 4000 + 1000 ) = 0.8 P(B_1) = 4000/(4000+1000)=0.8 P(B1)=4000/(4000+1000)=0.8
- 任意选择一名司机是女性时的概率: P ( B 2 ) = 1000 / ( 4000 + 1000 ) = 0.2 P(B_2) = 1000/(4000+1000)=0.2 P(B2)=1000/(4000+1000)=0.2
- 男性司机上年发生交通事故的概率: P ( A ∣ B 1 ) = 210 / 4000 = 0.0525 P(A | B_1)=210/4000= 0.0525 P(A∣B1)=210/4000=0.0525
- 女性司机上年发生交通事故的概率: P ( A ∣ B 2 ) = 40 / 1000 = 0.04 P(A | B_2)=40/1000 = 0.04 P(A∣B2)=40/1000=0.04
题目所要求的发生交通事故时司机为女性的概率可以表示为 P ( B 2 ∣ A ) P(B_2 | A) P(B2∣A)。
为了方便对比,整理如下表所示:
内容 | 男司机 | 女司机 | 备注 |
---|---|---|---|
总事故率 | - | - | 总计为 P ( A ) = 0.05 P(A)=0.05 P(A)=0.05,不分男女。 |
性别概率 | P ( B 1 ) = 0.80 P(B_1) = 0.80 P(B1)=0.80 | P ( B 2 ) = 0.20 P(B_2) = 0.20 P(B2)=0.20 | 司机的性别比 |
性别事故率 |
P
(
A
P(A
P(A|
B
1
)
=
0.0525
B_1)=0.0525
B1)=0.0525 |
P
(
A
P(A
P(A|
B
2
)
=
0.040
B_2)=0.040
B2)=0.040 | 在性别确认的情况下,统计事故率。 |
事故性别率 |
P
(
B
1
P(B_1
P(B1|
A
)
=
210
/
250
=
0.840
A) = 210/250=0.840
A)=210/250=0.840 |
P
(
B
2
P(B_2
P(B2|
A
)
=
40
/
250
=
0.160
A) = 40/250=0.160
A)=40/250=0.160 | 在事故确定的情况下,统计性别比例。 |
贝叶斯公式
根据贝叶斯公式,可得:
P
(
B
2
∣
A
)
=
P
(
A
∣
B
2
)
P
(
B
2
)
P
(
A
∣
B
1
)
P
(
B
1
)
+
P
(
A
∣
B
2
)
P
(
B
2
)
=
0.16
×
0.333
0.84
×
0.667
+
0.16
×
0.333
=
0.16
P(B_2|A)=\frac{P(A|B_2)P(B_2)}{P(A|B_1)P(B_1)+P(A|B_2)P(B_2)}= \frac{0.16 \times 0.333}{0.84 \times 0.667 + 0.16 \times 0.333}=0.16
P(B2∣A)=P(A∣B1)P(B1)+P(A∣B2)P(B2)P(A∣B2)P(B2)=0.84×0.667+0.16×0.3330.16×0.333=0.16
男性的计算方式可以表示为:
P
(
B
1
∣
A
)
=
1
−
P
(
B
2
∣
A
)
=
1
−
0.16
=
0.84
P(B_1|A) = 1 - P(B_2|A) = 1 - 0.16 = 0.84
P(B1∣A)=1−P(B2∣A)=1−0.16=0.84.
同样也可以使用贝叶斯公式可以得到:
P
(
B
1
∣
A
)
=
P
(
A
∣
B
1
)
P
(
B
1
)
P
(
A
∣
B
1
)
P
(
B
1
)
+
P
(
A
∣
B
2
)
P
(
B
2
)
=
0.0525
×
0.80
0.0525
×
0.80
+
0.04
×
0.20
=
0.84
P(B_1|A)=\frac{P(A|B_1)P(B_1)}{P(A|B_1)P(B_1)+P(A|B_2)P(B_2)}= \frac{0.0525 \times 0.80}{0.0525 \times 0.80 + 0.04 \times 0.20}=0.84
P(B1∣A)=P(A∣B1)P(B1)+P(A∣B2)P(B2)P(A∣B1)P(B1)=0.0525×0.80+0.04×0.200.0525×0.80=0.84
结果一致。
我们再来统计
P
(
A
B
)
P(AB)
P(AB) 和
P
(
A
B
2
)
P(AB_2)
P(AB2),由于
P
(
A
B
)
=
P
(
B
∣
A
)
P
(
A
)
=
P
(
A
∣
B
)
P
(
B
1
)
P(AB) = P(B | A) P(A)= P(A | B) P(B_1)
P(AB)=P(B∣A)P(A)=P(A∣B)P(B1),所以分别可以计算如下:
P
(
A
B
)
=
P
(
B
∣
A
)
P
(
A
)
=
0.84
∗
0.05
=
0.42
P
(
A
B
)
=
P
(
A
∣
B
)
P
(
B
1
)
=
0.0525
∗
0.80
=
0.42
P(AB) = P(B | A) P(A)=0.84*0.05=0.42\\ P(AB) = P(A | B) P(B_1)=0.0525*0.80=0.42
P(AB)=P(B∣A)P(A)=0.84∗0.05=0.42P(AB)=P(A∣B)P(B1)=0.0525∗0.80=0.42
可见,使用统计学直接计算,会得到相同的结果。类似地,对于
P
(
A
B
2
)
P(AB_2)
P(AB2) 有:
P
(
A
B
2
)
=
P
(
B
2
∣
A
)
P
(
A
)
=
0.16
∗
0.05
=
0.08
P(AB_2) = P(B_2 | A) P(A)=0.16*0.05=0.08
P(AB2)=P(B2∣A)P(A)=0.16∗0.05=0.08
P
(
A
B
2
)
=
P
(
A
∣
B
2
)
P
(
B
2
)
=
0.040
∗
0.20
=
0.08
P(AB_2) = P(A | B_2) P(B_2)=0.040*0.20=0.08
P(AB2)=P(A∣B2)P(B2)=0.040∗0.20=0.08
全概率公式
另外,根据全概率公式: P ( A ) = P ( A ∣ B 1 ) P ( B 1 ) + P ( A ∣ B 2 ) P ( B 2 ) P(A)=P(A|B_1)P(B_1) + P(A|B_2)P(B_2) P(A)=P(A∣B1)P(B1)+P(A∣B2)P(B2)将数据代入,得: P ( A ∣ B 1 ) P ( B 1 ) + P ( A ∣ B 2 ) P ( B 2 ) = 0.0525 ∗ 0.80 + 0.04 ∗ 0.20 = 0.05 = P ( A ) P(A|B_1) P(B_1) + P(A|B_2)P(B_2) = 0.0525 * 0.80 + 0.04 * 0.20 = 0.05=P(A) P(A∣B1)P(B1)+P(A∣B2)P(B2)=0.0525∗0.80+0.04∗0.20=0.05=P(A)结果与之前的计算一致。
小结
综上所述,在条件概率 P ( Y ∣ X ) P(Y|X) P(Y∣X)中, X X X 是已经发生了的确定事件,即概率的条件,而 Y Y Y 是要求的概率。比如,求“女司机的事故概率”,女司机是已经确定的,而所要求的是事故概率,所以概率表达式为 P ( 事 故 ∣ 女 司 机 ) P(事故 | 女司机) P(事故∣女司机)。反之,如果是求事故发生时女司机的概率,那么事故是已经发生的,是前提条件,所要求的是女司机的概率,所以表达式可以写成 P ( 女 司 机 ∣ 事 故 ) P(女司机 | 事故) P(女司机∣事故),这就是条件概率的本质含义。