条件概率
概率论公理:概率论公理
1 条件概率
在计算某些事件个概率时,同时具有某些关于该试验的附加信息,此时概率应该是条件概率。以掷骰子试验来直观地解释条件概率,同时掷两枚骰子,假设样本空间的结果是等可能的,即
36
36
36种结果是等可能的,均为
1
36
\cfrac{1}{36}
361。再进一步假设已知第一个骰子的点数为
3
3
3,在这种情况下,两个骰子的结果就只剩下6种
{
(
3
,
1
)
,
(
3
,
2
)
,
(
3
,
3
)
,
(
3
,
4
)
,
(
3
,
5
)
,
(
3
,
6
)
}
\{(3,1),(3,2),(3,3),(3,4),(3,5),(3,6)\}
{(3,1),(3,2),(3,3),(3,4),(3,5),(3,6)},其中每个结果的概率均为
1
6
\cfrac{1}{6}
61,进而在这种情况下,两点之和为
8
8
8的概率也就是
1
6
\cfrac{1}{6}
61。
就该问题,我们深入地了解为什么是这样的结果,首先样本空间
36
36
36种结果是等可能的,现在从一个点数已知为
3
3
3出发,样本空间这
36
36
36种结果就不是等可能的了,只有上述
6
6
6种是等可能的,其余概率均为
0
0
0,也可以理解为样本空间缩小了,不论怎样,都是满足概率论公理的。这样,两点之和为
8
8
8这个事件的概率就回到了等可能结果的样本空间事件概率的求法。
进一步,我们推广到一般情况,有两个事件
E
E
E和
F
F
F,我们想要计算假定在
F
F
F发生的情况下事件
E
E
E发生的概率,记为
P
(
E
∣
F
)
P(E|F)
P(E∣F)。结合掷骰子试验,如果
F
F
F已经发生,要让
E
E
E也发生,那么结果一定是属于
E
E
E和
F
F
F的交的。并且
F
F
F已经发生了,那么样本空间就发生了改变,
F
F
F中的所有结果构成了新的样本空间。因此有如下定义:如果
P
(
F
)
>
0
P(F)\gt0
P(F)>0,那么:
P
(
E
∣
F
)
=
E
⋂
F
的
结
果
数
F
的
结
果
数
=
P
(
E
F
)
P
(
F
)
P(E|F) = \cfrac{E\bigcap F的结果数}{F的结果数}=\cfrac{P(EF)}{P(F)}
P(E∣F)=F的结果数E⋂F的结果数=P(F)P(EF)
这就是条件概率的求法,如果两边同时乘以$P(F)则:
P
(
E
F
)
=
P
(
E
∣
F
)
P
(
F
)
P(EF) = P(E|F)P(F)
P(EF)=P(E∣F)P(F)
该式在求两个事件交的概率时非常管用,该式推广到多个事件就是乘法规则,提供了任意个事件交的概率:
P
(
E
1
E
2
E
3
⋯
E
n
)
=
P
(
E
1
)
P
(
E
2
∣
E
1
)
P
(
E
3
∣
E
1
E
2
)
⋯
P
(
E
n
∣
E
1
⋯
E
n
−
1
)
P(E_1E_2E_3\cdots E_n) = P(E_1)P(E_2|E_1)P(E_3|E_1E_2)\cdots P(E_n|E_1\cdots E_{n-1})
P(E1E2E3⋯En)=P(E1)P(E2∣E1)P(E3∣E1E2)⋯P(En∣E1⋯En−1)
P
(
E
∣
F
)
P(E|F)
P(E∣F)的定义与概率的频率解释是一致的。假设进行了
n
n
n次独立重复试验
n
n
n相当大。若只考虑事件
F
F
F发生的那些试验,此时
P
(
E
∣
F
)
P(E|F)
P(E∣F)近似地等于事件
E
E
E发生的相对频率。由于概率
P
(
F
)
P(F)
P(F)是事件
F
F
F发生的频率的极限,在
n
n
n次独立重复试验中,事件
F
F
F会近似地发生
n
P
(
F
)
nP(F)
nP(F)次。类似地,事件
E
F
EF
EF会近似地发生
n
P
(
E
F
)
nP(EF)
nP(EF)次。这样,在
F
F
F发生的近
n
P
(
F
)
nP(F)
nP(F)次试验中,事件
E
E
E也发生的相对频率近似地等于:
n
P
(
E
F
)
n
P
(
F
)
=
P
(
E
F
)
P
(
F
)
\cfrac{nP(EF)}{nP(F)}=\cfrac{P(EF)}{P(F)}
nP(F)nP(EF)=P(F)P(EF)
当
n
n
n越来越大时,其相对频率趋于
P
(
E
F
)
P
(
F
)
\cfrac{P(EF)}{P(F)}
P(F)P(EF),这个值即为
P
(
E
∣
F
)
P(E|F)
P(E∣F)的频率定义。
2 贝叶斯公式
2.1 一个重要的公式
在贝叶斯公式之前先来看一个非常有用的公式。设
E
E
E和
F
F
F为两个事件,那么可以将
E
E
E表示为:
E
=
E
F
⋃
E
F
c
E = EF\bigcup EF^c
E=EF⋃EFc
这是什么含义呢?如果画出维恩图可以非常清晰地看出来这个表示方法的含义。事件
E
E
E中的结果,要么同时属于
E
E
E和
F
F
F,要么只属于
E
E
E但是不属于
F
F
F。那么
E
F
EF
EF和
E
F
c
EF^c
EFc一定是不相容的,这时根据概率论公理的第三条有:
P
(
E
)
=
P
(
E
F
⋃
E
F
c
)
=
P
(
E
F
)
+
P
(
E
F
c
)
P(E)=P(EF\bigcup EF^c)=P(EF) + P(EF^c)
P(E)=P(EF⋃EFc)=P(EF)+P(EFc)
对于两个事件,根据其条件概率改变上式可以得出:
P
(
E
)
=
P
(
E
∣
F
)
P
(
F
)
+
P
(
E
∣
F
c
)
P
(
F
c
)
=
P
(
E
∣
F
)
P
(
F
)
+
P
(
E
∣
F
c
)
(
1
−
P
(
F
)
)
P(E)=P(E|F)P(F)+P(E|F^c)P(F^c)=P(E|F)P(F)+P(E|F^c)(1-P(F))
P(E)=P(E∣F)P(F)+P(E∣Fc)P(Fc)=P(E∣F)P(F)+P(E∣Fc)(1−P(F))
这个式子表明,
E
E
E事件发生的概率等于两个条件概率的加权平均,其中权重为每个作为条件的事件发生的概率。该式十分有用,它能够通过以第二个事件发生与否作为条件来计算第一个事件发生的概率。
现在对这个式子进行一下推广:假定
F
1
,
F
2
,
⋯
,
F
n
F_1,F_2,\cdots,F_n
F1,F2,⋯,Fn是互不相容的事件,且满足:
⋃
i
=
1
n
F
i
=
S
\bigcup_{i=1}^nF_i=S
i=1⋃nFi=S
换言之,这些事件中必有一件会发生。现在给出另一个事件
E
E
E记:
E
=
⋃
i
=
1
n
E
F
i
E = \bigcup_{i=1}^nEF_i
E=i=1⋃nEFi
即
E
E
E事件是每个事件
F
i
F_i
Fi中的一些结果的并。因此,
E
F
i
EF_i
EFi之间也是互不相容的,那么我们可以通过下式求得
P
(
E
)
P(E)
P(E):
P
(
E
)
=
∑
i
=
1
n
P
(
E
F
i
)
=
∑
i
=
1
n
P
(
E
∣
F
i
)
P
(
F
i
)
P(E)=\sum_{i=1}^nP(EF_i)=\sum_{i=1}^nP(E|F_i)P(F_i)
P(E)=i=1∑nP(EFi)=i=1∑nP(E∣Fi)P(Fi)
这个公式被称为全概率公式,该公式叙述了
P
(
E
)
P(E)
P(E)为
P
(
E
∣
F
i
)
P(E|F_i)
P(E∣Fi)的加权平均,权重为
P
(
F
i
)
P(F_i)
P(Fi)。对于事件
F
1
,
F
2
,
⋯
,
F
n
F_1,F_2,\cdots,F_n
F1,F2,⋯,Fn,其中一个或仅有一个发生,便可以依据全概率公式通过
F
i
F_i
Fi中一个发生的条件概率来计算
P
(
E
)
P(E)
P(E)。
2.2 优势比
定义:事件
E
E
E的优势比为:
P
(
A
)
P
(
A
c
)
=
P
(
A
)
1
−
P
(
A
)
\cfrac{P(A)}{P(A^c)}=\cfrac{P(A)}{1-P(A)}
P(Ac)P(A)=1−P(A)P(A)
这个优势比想传达这么个意思——该事件发生的可能性是该事件不发生可能性的倍数。现在考虑假设
H
H
H以概率
P
(
H
)
P(H)
P(H)成立,如果我们发现了新的证据
E
E
E,那么在
E
E
E成立的条件下,
H
H
H成立和
H
H
H不成立的概率分别为:
P
(
H
∣
E
)
=
P
(
E
∣
H
)
P
(
H
)
P
(
E
)
P
(
H
c
∣
E
)
=
P
(
E
∣
H
c
)
P
(
H
c
)
P
(
E
)
P(H|E)=\cfrac{P(E|H)P(H)}{P(E)}\\ P(H^c|E)=\cfrac{P(E|H^c)P(H^c)}{P(E)}
P(H∣E)=P(E)P(E∣H)P(H)P(Hc∣E)=P(E)P(E∣Hc)P(Hc)
引进了这个证据
E
E
E后,假设
H
H
H的新优势比为:
P
(
H
∣
E
)
P
(
H
c
∣
E
)
=
P
(
H
)
P
(
H
c
)
P
(
E
∣
H
)
P
(
E
∣
H
c
)
\cfrac{P(H|E)}{P(H^c|E)}=\cfrac{P(H)}{P(H^c)}\cfrac{P(E|H)}{P(E|H^c)}
P(Hc∣E)P(H∣E)=P(Hc)P(H)P(E∣Hc)P(E∣H)
这样
H
H
H的新优势比是在它原来的优势比的基础上乘以新证据在
H
H
H和
H
c
H^c
Hc下的条件概率的比值,如果这个比值大于1即
E
E
E在
H
H
H成立下的概率大于
E
E
E在
H
H
H不成立下的概率,那么
H
H
H的优势比是提升的。
2.3 贝叶斯公式
我们再次令
F
1
,
F
2
,
⋯
,
F
n
F_1,F_2,\cdots,F_n
F1,F2,⋯,Fn表示一组互不相容且穷举的事件(意思是恰好有这些事件中的一个必须发生)。现在假设
E
E
E发生了(新的证据),我们想要计算
F
j
F_j
Fj发生的概率,通过2.1节的公式,可以得到如下命题:
P
(
F
j
∣
E
)
=
P
(
E
F
j
)
P
(
E
)
=
P
(
E
∣
F
j
)
P
(
F
j
)
∑
i
=
1
n
P
(
E
∣
F
i
)
P
(
F
i
)
P(F_j|E)=\cfrac{P(EF_j)}{P(E)}=\cfrac{P(E|F_j)P(F_j)}{\sum_{i=1}^nP(E|F_i)P(F_i)}
P(Fj∣E)=P(E)P(EFj)=∑i=1nP(E∣Fi)P(Fi)P(E∣Fj)P(Fj)
公式称为贝叶斯公式。贝叶斯公式可以这样理解:它告诉我们,在试验之前,对这些假设条件所作的判断
P
(
F
i
)
P(F_i)
P(Fi),可以如何根据试验结果来进行修正。
3 P ( ∙ ∣ F ) P(\bullet | F) P(∙∣F)是概率
条件概率满足普通概率的所有性质,条件概率 P ( E ∣ F ) P(E|F) P(E∣F)同样满足概率的三条公理:
- 0 ≤ P ( E ∣ F ) ≤ 1 0 \le P(E|F) \le 1 0≤P(E∣F)≤1
- P ( S ∣ F ) = 1 P(S|F)=1 P(S∣F)=1
- 若
E
i
(
i
=
1
,
2
,
⋯
)
E_i(i=1,2,\cdots)
Ei(i=1,2,⋯)为互不相容的事件序列,则有:
P ( ⋃ i = 1 ∞ E i ∣ F ) = ∑ i = 1 ∞ P ( E i ∣ F ) P(\bigcup_{i=1}^\infty E_i|F)=\sum_{i=1}^\infty P(E_i|F) P(i=1⋃∞Ei∣F)=i=1∑∞P(Ei∣F)
参考资料:《概率论基础教程》Sheldon M.Ross