1. 全概率公式
设实验
E
E
E的样本空间为
S
S
S,
A
A
A为实验
E
E
E的事件,
B
1
B_1
B1,
B
2
B_2
B2……
B
n
B_n
Bn为样本空间S的划分(互斥),且
P
(
B
i
)
>
0
P(B_i)>0
P(Bi)>0,
i
∈
N
∗
i\in N^*
i∈N∗,则:
P
(
A
)
=
P
(
A
∣
B
1
)
P
(
B
1
)
+
P
(
A
∣
B
2
)
P
(
B
2
)
+
.
.
.
P(A)=P(A|B_1)P(B_1)+P(A|B_2)P(B_2)+...
P(A)=P(A∣B1)P(B1)+P(A∣B2)P(B2)+...
解析:
P
(
A
∣
B
1
)
P(A|B_1)
P(A∣B1)即事件A发生且落在样本空间
B
1
B_1
B1中的概率。因为
P
(
A
)
=
P
(
A
∩
S
)
P(A)=P(A\cap S)
P(A)=P(A∩S),
P
(
A
∩
S
)
=
P
(
A
∩
B
1
)
+
P
(
A
∩
B
2
)
+
.
.
.
=
P
(
A
B
1
)
+
P
(
A
B
2
)
+
.
.
.
P(A\cap S)=P(A\cap B_1)+P(A\cap B_2)+...=P(AB_1)+P(AB_2)+...
P(A∩S)=P(A∩B1)+P(A∩B2)+...=P(AB1)+P(AB2)+....
其中,
P
(
A
B
1
)
=
P
(
A
∣
B
1
)
P
(
B
1
)
P(AB_1)=P(A|B_1)P(B_1)
P(AB1)=P(A∣B1)P(B1),落在
B
1
B_1
B1空间的概率乘以A在
B
1
B_1
B1上发生的概率,其余类推。
例1 据美国的一份资料报导,在美国来说患肺癌的概率约为0.1%,在人群中有20%是吸烟者,他们患肺癌的率约为0.4%,求不吸者患肺癌的概率是多少?
解:
全概率空间为患肺癌
E
E
E和不患肺癌
E
‾
\overline{E}
E之和,吸烟和患肺癌分别设为事件A、C。
C
C
C为患肺癌,
C
‾
\overline{C}
C为不患肺癌,
P
(
C
)
=
0.001
,
P
(
A
)
=
0.2
P(C)=0.001,P(A)=0.2
P(C)=0.001,P(A)=0.2
吸烟者中0.4%患癌:
P
(
C
∣
A
)
=
0.004
P(C|A)=0.004
P(C∣A)=0.004,
P
(
A
‾
)
=
0.8
P(\overline{A})=0.8
P(A)=0.8
P
(
C
)
=
P
(
C
∣
A
)
P
(
A
)
+
P
(
C
∣
A
‾
)
P
(
A
‾
)
P(C)=P(C|A)P(A)+P(C|\overline{A})P(\overline{A})
P(C)=P(C∣A)P(A)+P(C∣A)P(A)
0.001
=
0.004
∗
0.2
+
P
(
C
∣
A
‾
)
P
(
A
‾
)
0.001=0.004*0.2+P(C|\overline{A})P(\overline{A})
0.001=0.004∗0.2+P(C∣A)P(A)
P
(
C
∣
A
‾
)
P
(
A
‾
)
=
0.0002
P(C|\overline{A})P(\overline{A})=0.0002
P(C∣A)P(A)=0.0002
P
(
C
∣
A
‾
)
=
0.00025
P(C|\overline{A})=0.00025
P(C∣A)=0.00025(不吸者患肺癌的概率)
2.贝叶斯公式
设实验E的样本空间为S,A为E的事件,
B
1
B_1
B1,
B
2
B_2
B2……
B
n
B_n
Bn为样本空间S的划分(互斥),且
P
(
A
)
>
0
,
P
(
B
i
)
>
0
P(A)>0, P(B_i)>0
P(A)>0,P(Bi)>0,
i
∈
N
∗
i\in N^*
i∈N∗,则:
P
(
B
i
∣
A
)
=
P
(
A
∣
B
i
)
P
(
B
i
)
∑
j
=
1
n
P
(
A
∣
B
j
)
P
(
B
j
)
P(B_i|A)=\frac{P(A|B_i)P(B_i)}{\displaystyle \sum^{n}_{j=1}P(A|B_j)P(B_j)}
P(Bi∣A)=j=1∑nP(A∣Bj)P(Bj)P(A∣Bi)P(Bi)
解析:
P
(
B
i
∣
A
)
=
P
(
A
B
i
)
P
(
A
)
P(B_i|A)=\frac{P(AB_i)}{P(A)}
P(Bi∣A)=P(A)P(ABi),
分子:
P
(
A
B
i
)
=
P
(
A
∣
B
i
)
P
(
B
i
)
P(AB_i)=P(A|B_i)P(B_i)
P(ABi)=P(A∣Bi)P(Bi),
P
(
B
i
∣
A
)
P(B_i|A)
P(Bi∣A)即A发生在
B
i
B_i
Bi空间内的概率。
分母:
P
(
A
)
=
P
(
A
∣
B
1
)
P
(
B
1
)
+
P
(
A
∣
B
2
)
P
(
B
2
)
+
.
.
.
P(A)=P(A|B_1)P(B_1)+P(A|B_2)P(B_2)+...
P(A)=P(A∣B1)P(B1)+P(A∣B2)P(B2)+...,即全概率公式展开。
例2 对以往数据分析结果表明,当机器调整得良好时,产品的合格率为98%,而当机器发生某种故障时,其合格率为55%。每天早上机器开动时,机器调整良好的概率为95%,试求已知某日早上第一件产品是合格品时,机器调整良好的概率是多少?
解:
设“产品合格”为A,“机器良好”为B
当机器调整得良好时,产品的合格率为98%:
P
(
A
∣
B
)
=
0.98
P(A|B)=0.98
P(A∣B)=0.98
当机器发生某种故障时,其合格率为55%:
P
(
A
∣
B
‾
)
=
0.55
P(A|\overline{B})=0.55
P(A∣B)=0.55
机器调整良好的概率为95%:
P
(
B
)
=
0.95
P(B)=0.95
P(B)=0.95
产品是合格品时,机器调整良好的概率:
P
(
B
∣
A
)
P(B|A)
P(B∣A)
由贝叶斯公式得:
分母为A的全概率:
P
(
A
∣
B
)
P
(
B
)
+
P
(
A
∣
B
‾
)
P
(
B
‾
)
=
0.98
×
0.95
+
0.55
×
0.05
=
0.9585
P(A|B)P(B)+P(A|\overline{B})P(\overline{B})=0.98\times 0.95+0.55\times0.05=0.9585
P(A∣B)P(B)+P(A∣B)P(B)=0.98×0.95+0.55×0.05=0.9585
分子为AB同时发生的概率:
P
(
A
B
)
=
P
(
A
∣
B
)
P
(
B
)
=
0.98
×
0.95
=
0.931
P(AB)=P(A|B)P(B)=0.98\times0.95=0.931
P(AB)=P(A∣B)P(B)=0.98×0.95=0.931
P
(
B
∣
A
)
=
0.931
0.9585
=
0.9713
P(B|A)=\frac{0.931}{0.9585}=0.9713
P(B∣A)=0.95850.931=0.9713
关于先验概率和后验概率
例2中,每天早上机器开动时,机器调整良好的概率为95%,因为是在没有进行概率计算前就得到了,可以作为概率计算条件,所以叫先验概率(prior probability)。
在得到这个先验概率后,通过计算再反映出先验概率反映的情况的概率是后验概率(posterior probability)。
先验概率反映了历史的信息,后验概率由于是通过先验概率进行计算后推出当前的信息,所以反映的是当下的信息。
关于空事件、平凡事件
空事件(empty event)即不会发生的事件,记作
∅
\emptyset
∅,
P
(
∅
)
=
0
P(\emptyset)=0
P(∅)=0;
平凡事件(trivial event)即所有可能发生的事件,记作
Ω
\Omega
Ω,
P
(
Ω
)
=
1
P(\Omega)=1
P(Ω)=1。
条件概率公式及链式法则
条件概率公式:在 A A A给定的条件下, B B B发生的概率为:
P ( B ∣ A ) = P ( A ∩ B ) P ( A ) = P ( A , B ) P ( A ) P(B|A)=\frac{P(A\cap B)}{P(A)}=\frac{P(A,B)}{P(A)} P(B∣A)=P(A)P(A∩B)=P(A)P(A,B)
链式法则:
有上面的条件概率公式变形得到,两个事件 A A A、 B B B同时发生的概率为:
P ( A ∩ B ) = P ( A , B ) = P ( A ∣ B ) × P ( B ) P(A\cap B)=P(A,B)=P(A|B)\times P(B) P(A∩B)=P(A,B)=P(A∣B)×P(B)
若有三个事件 A A A、 B B B、 C C C,它们同时发生的概率为:
P ( A ∩ B ∩ C ) = P ( A , B , C ) = P ( A ∣ B , C ) × P ( B , C ) = P ( A ∣ B , C ) × P ( B ∣ C ) × P ( C ) P(A\cap B\cap C)=P(A,B,C)=P(A|B,C)\times P(B,C)=P(A|B,C)\times P(B|C)\times P(C) P(A∩B∩C)=P(A,B,C)=P(A∣B,C)×P(B,C)=P(A∣B,C)×P(B∣C)×P(C)
推广到
n
n
n个事件:
P
(
α
1
,
α
2
,
…
,
α
n
)
=
P
(
α
1
)
P
(
α
2
∣
α
1
)
…
P
(
α
k
∣
α
1
∩
⋯
∩
α
n
−
1
)
=
P
(
α
1
∣
α
2
,
α
3
,
…
,
α
n
)
P
(
α
2
∣
α
3
,
α
4
,
…
,
α
n
)
…
P
(
α
n
−
1
∣
α
n
)
P
(
α
n
)
P(\alpha_1,\alpha_2,\dots ,\alpha_n)=P(\alpha_1)P(\alpha_2|\alpha_1)\dots P(\alpha_k|\alpha_1\cap \dots\cap\alpha_{n-1})=P(\alpha_1|\alpha_2,\alpha_3,\dots,\alpha_n)P(\alpha_2|\alpha_3,\alpha_4,\dots,\alpha_n)\dots P(\alpha_{n-1}|\alpha_n)P(\alpha_n)
P(α1,α2,…,αn)=P(α1)P(α2∣α1)…P(αk∣α1∩⋯∩αn−1)=P(α1∣α2,α3,…,αn)P(α2∣α3,α4,…,αn)…P(αn−1∣αn)P(αn)
即可以把几个事件组合的概率表示为关于第一个、最后一个或者任意制定一个事件的概率。
贝叶斯规则:
P ( A ∣ B ) = P ( B ∣ A ) P ( A ) P ( B ) P(A|B)=\frac{P(B|A)P(A)}{P(B)} P(A∣B)=P(B)P(B∣A)P(A)
贝叶斯规则使得能用逆的条件概率 P ( A ∣ B ) P(A|B) P(A∣B)求出 P ( B ∣ A ) P(B|A) P(B∣A)
例3:如果学生聪明(smart)的概率为0.3,学生成绩优秀(gradeA)的概率为0.2,学生聪明的条件下成绩优秀的概率为 P ( g r a d e A ∣ s m a r t ) = 0.6 P(gradeA|smart)=0.6 P(gradeA∣smart)=0.6,求学生成绩优秀的条件下聪明的概率。
解:
由贝叶斯公式得:
P ( s m a r t ) = 0.3 P(smart)=0.3 P(smart)=0.3
P ( g r a d e A ) = 0.2 P(gradeA)=0.2 P(gradeA)=0.2
P ( s m a r t ∣ g r a d e A ) = P ( g r a d e A ∣ s m a r t ) P ( s m a r t ) P ( g r a d e A ) = 0.6 × 0.3 0.2 = 0.9 P(smart|gradeA)=\frac{P(gradeA|smart)P(smart)}{P(gradeA)}=\frac{0.6\times 0.3}{0.2}=0.9 P(smart∣gradeA)=P(gradeA)P(gradeA∣smart)P(smart)=0.20.6×0.3=0.9
其中 P ( s m a r t ) = 0.3 P(smart)=0.3 P(smart)=0.3和 P ( g r a d e A ) = 0.2 P(gradeA)=0.2 P(gradeA)=0.2为先验概率, P ( s m a r t ∣ g r a d e A ) P(smart|gradeA) P(smart∣gradeA)和 P ( g r a d e A ∣ s m a r t ) P(gradeA|smart) P(gradeA∣smart)为后验概率。