全概率公式
给定有限或无限个事件 B 1 , B 2 , … B_1,B_2,\ldots B1,B2,…,两两互斥且每次试验至少发生一个,即 B i B j = ∅ ( i ≠ j ) B_iB_j=\emptyset\left(i\neq j\right) BiBj=∅(i=j)且 B 1 + B 2 + … = Ω B_1+B_2+\ldots=\Omega B1+B2+…=Ω(其中 Ω \Omega Ω为必然事件)。现考虑任意一个事件 A A A,利用 Ω \Omega Ω为必然事件且上述事件两两互斥则有:
P ( A ) = P ( A B 1 ) + P ( A B 2 ) + … P\left(A\right)=P\left(AB_1\right)+P\left(AB_2\right)+\ldots P(A)=P(AB1)+P(AB2)+…
利用条件概率的定义:
P ( A B i ) = P ( B i ) P ( A | B i ) P\left(AB_i\right)=P\left(B_i\right)P\left(A\middle| B_i\right) P(ABi)=P(Bi)P(A∣Bi)
从而得到了全概率公式:
P ( A ) = P ( B 1 ) P ( A | B 1 ) + P ( B 2 ) P ( A | B 2 ) + … P\left(A\right)=P\left(B_1\right)P\left(A\middle| B_1\right)+P\left(B_2\right)P\left(A\middle| B_2\right)+\ldots P(A)=P(B1)P(A∣B1)+P(B2)P(A∣B2)+…
注:为什么全概率公式很重要?
所谓全概率公式就是将“全”部概率 P ( A ) P(A) P(A)划分成很多部分的和。理论和实用意义在于:在较复杂的情况下直接算 P ( A ) P(A) P(A)不容易,但是 A A A总是随着某个 B i B_i Bi出现,适当去构造这一组 B i B_i Bi往往可以简化计算。
另一种角度理解,把 B i B_i Bi看做导致事件 A A A发生的一种可能途径。对不同的途径, A A A发生的概率即条件概率 P ( A | B i ) P\left(A\middle| B_i\right) P(A∣Bi)各不相同,而采取哪种途径却是随机的。直观理解:在这种机制下, A A A的综合概率 P ( A ) P(A) P(A)应该在最小的 P ( A | B i ) P\left(A\middle| B_i\right) P(A∣Bi)和最大的 P ( A | B i ) P\left(A\middle| B_i\right) P(A∣Bi)之间,也不一定是所有 P ( A ∣ B ) P(A|B) P(A∣B)的算术平均,因为各途径被使用的 P ( B i ) P\left(B_i\right) P(Bi)机会各不相同,也就是如上所示,应该是诸 P ( A | B i ) P\left(A\middle| B_i\right) P(A∣Bi)以 P ( B i ) P\left(B_i\right) P(Bi)为权重的加权平均值。
贝叶斯公式
在全概率公式的条件下,有
P ( B i | A ) = P ( A B i ) / P ( A ) = P ( B i ) P ( A | B i ) / ∑ j P ( B j ) P ( A | B j ) P\left(B_i\middle|A\right)=P\left(AB_i\right)/P\left(A\right)=P\left(B_i\right)P\left(A\middle| B_i\right)/\sum_{j}{P\left(B_j\right)P\left(A\middle| B_j\right)} P(Bi∣A)=P(ABi)/P(A)=P(Bi)P(A∣Bi)/j∑P(Bj)P(A∣Bj)
该公式就是概率论中著名的贝叶斯公式。
注:为什么贝叶斯公式很重要?
形式上看,贝叶斯公式实际上就是条件概率定义与全概率公式的简单推论,之所以著名,在于其现实意义的解释上:先看 P ( B 1 ) , P ( B 2 ) , … P\left(B_1\right),P\left(B_2\right),\ldots P(B1),P(B2),…它是在没有进一步的信息,也就是不知道A是否发生的情况下,人们对 B 1 , B 2 , … B_1,B_2,\ldots B1,B2,…发生可能性大小的认识,现在有了新的信息,也就是知道 A A A发生,人们对 B 1 , B 2 , … B_1,B_2,\ldots B1,B2,…发生的可能性大小有了新的估价。
如果我们把事件 A A A看成“结果”,把事件 B 1 , B 2 , . . . B_1,B_2,... B1,B2,...看成导致这个结果的可能的“原因”,则利用形象地把全概率公式看做“由原因推结果”;而贝叶斯公式则恰好相反,其作用在于“有结果推原因”:现在有一个“结果” A A A已发生了,在众多可能的“原因”中,到底是哪一个导致了这个结果?
举例:新冠病毒在人口中的带病毒率为0.03,但是由于各种原因,携带病毒的不一定呈现阳性,不携带病毒的也可能呈现阳性,假定P(阳性|带病毒)=0.99,P(阴性|带病毒)=0.1,P(阳性|不带病毒)=0.05,P(阴性|不带病毒)=0.95,那么如果一个人检测出阳性,他患新冠的概率是多少?
分析:令携带新冠病毒为事件B_1,那么不携带就是事件B_2,此人阳性则是事件A,从而有
P
(
B
1
)
=
0.03
,
P
(
B
2
)
=
0.97
,
P
(
A
|
B
1
)
=
0.99
,
P
(
A
|
B
2
)
=
0.05
P\left(B_1\right)=0.03,P\left(B_2\right)=0.97,P\left(A\middle| B_1\right)=0.99,P\left(A\middle| B_2\right)=0.05
P(B1)=0.03,P(B2)=0.97,P(A∣B1)=0.99,P(A∣B2)=0.05
我们的目的是求出
P
(
B
1
|
A
)
P\left(B_1\middle| A\right)
P(B1∣A)的大小。
P
(
B
1
|
A
)
=
P
(
A
|
B
1
)
P
(
B
1
)
/
[
P
(
A
∣
B
1
)
P
(
B
1
)
+
P
(
A
∣
B
2
)
P
(
B
2
)
]
P\left(B_1\middle| A\right)=P\left(A\middle| B_1\right)P\left(B_1\right)/\left[P\left(A{|B}_1\right)P\left(B_1\right)+P\left(A{|B}_2\right)P\left(B_2\right)\right]
P(B1∣A)=P(A∣B1)P(B1)/[P(A∣B1)P(B1)+P(A∣B2)P(B2)]
算出来的结果是40%,也就是说即使检测出阳性,也不一定患病,这在某种程度上与直觉矛盾。
Reference
[1]陈希孺.概率论与数理统计[M].中国科学技术大学出版社:合肥,2009:31-34.