第一章 事件及其概率(2)
1.条件概率
在之前所讨论的事件发生的概率,都是在一些基本条件下发生的。如果除了基本条件以外还有附加条件,则事件发生的概率会发生改变。这里,常常将附加条件描述为“一个事件发生”,如事件 B B B,而在事件 B B B发生的条件下 A A A发生的概率,就称作事件 A A A关于事件 B B B的条件概率,记作 P ( A ∣ B ) P(A|B) P(A∣B)。
- 注意,要计算概率的事件写在前面,作为附加条件而视作发生的事件写在竖线后边。
- 由于在概率的公理化定义中,我们把事件也看成了样本点的集合,因此在事件 B B B发生的前提下,我们要考虑的样本空间,就是 B B B包含的样本点的集合。也就是说,条件概率可以看作是样本空间的压缩,自然会影响事件发生的概率。
从样本空间的角度看,很容易得到以下结论
P
(
A
∣
B
)
=
A
B
包
含
的
样
本
点
数
B
包
含
的
样
本
点
数
=
A
B
包
含
的
样
本
点
数
/
样
本
点
总
数
B
包
含
的
样
本
点
数
/
样
本
点
总
数
=
P
(
A
B
)
P
(
B
)
.
\begin{aligned} &P(A|B)\\ =&\frac{AB包含的样本点数}{B包含的样本点数}\\ =&\frac{AB包含的样本点数/样本点总数}{B包含的样本点数/样本点总数}\\ =&\frac{P(AB)}{P(B)}. \end{aligned}
===P(A∣B)B包含的样本点数AB包含的样本点数B包含的样本点数/样本点总数AB包含的样本点数/样本点总数P(B)P(AB).
而如果
P
(
B
)
=
0
P(B)=0
P(B)=0,显然有
P
(
A
∣
B
)
=
0
P(A|B)=0
P(A∣B)=0,所以条件概率的公式往往写成
P
(
A
B
)
=
P
(
A
∣
B
)
P
(
B
)
.
P(AB)=P(A|B)P(B).
P(AB)=P(A∣B)P(B).
这个式子,具有很明显的链性,所以被称为条件概率的链式法则。可以往多个事件推导,得到
P
(
A
1
A
2
⋯
A
n
)
=
P
(
A
1
)
P
(
A
2
∣
A
1
)
⋯
P
(
A
n
∣
A
1
⋯
A
n
−
1
)
.
P(A_1A_2\cdots A_n)=P(A_1)P(A_2|A_1)\cdots P(A_n|A_1\cdots A_{n-1}).
P(A1A2⋯An)=P(A1)P(A2∣A1)⋯P(An∣A1⋯An−1).
2.全概率公式与Bayes公式
全概率公式与Bayes公式,是与条件相关的两个非常重要的公式。
全概率公式基于完备事件组的概念,而完备事件组,指的是一系列互不相容的事件,但每次试验必定发生这些事件中的一个。即互不相容的一列事件 A 1 , A 2 , ⋯ , A n A_1,A_2,\cdots,A_n A1,A2,⋯,An,满足 P ( A i ) > 0 , ∑ i = 1 n A i = Ω P(A_i)>0,\sum\limits_{i=1}^nA_i=\Omega P(Ai)>0,i=1∑nAi=Ω。如果用样本空间的角度来看,就是将样本空间中的样本点分割为几部分(即几个集合),这几个集合构成的事件组成一个完备事件组。
对于完备事件组
A
1
,
⋯
,
A
n
,
⋯
A_1,\cdots,A_n,\cdots
A1,⋯,An,⋯与任意事件
B
B
B,全概率公式指的是
P
(
B
)
=
∑
i
=
1
∞
P
(
A
i
)
P
(
B
∣
A
i
)
.
P(B)=\sum_{i=1}^\infty P(A_i )P(B|A_i).
P(B)=i=1∑∞P(Ai)P(B∣Ai).
直观上看,全概率公式是将一个具体事件看作依赖于完备事件组的事件,即在几种不同条件下
B
B
B的条件概率,对条件本身发生概率的加权平均。证明如下:
P
(
B
)
=
P
(
B
∑
i
=
1
n
A
i
)
=
P
(
∑
i
=
1
n
A
i
B
)
=
∑
i
=
1
n
P
(
A
i
B
)
=
∑
i
=
1
n
P
(
A
i
)
P
(
B
∣
A
i
)
.
P(B)=P(B\sum_{i=1}^n A_i)=P(\sum_{i=1}^n A_iB)=\sum_{i=1}^n P(A_iB)=\sum_{i=1}^n P(A_i)P(B|A_i ).
P(B)=P(Bi=1∑nAi)=P(i=1∑nAiB)=i=1∑nP(AiB)=i=1∑nP(Ai)P(B∣Ai).
Bayes公式,描述的是一种“后验”概率。后验的意思是,由于一个事件的直接发生概率与条件概率是不一样的,在某事件发生的条件下对某事件发生的概率会产生影响,因此,在事件
B
B
B不确定是否发生之前的概率
P
(
A
)
P(A)
P(A)称为事件
A
A
A的先验概率,而在确认事件
B
B
B确实发生的概率
P
(
A
∣
B
)
P(A|B)
P(A∣B)称为事件
A
A
A的后验概率。Bayes公式就是联系先验概率和后验概率的桥梁,它可以由全概率公式推导而来,同样也依赖于完备事件组。
P
(
A
i
∣
B
)
=
P
(
A
i
)
P
(
B
∣
A
i
)
∑
k
=
1
n
P
(
A
k
)
P
(
B
∣
A
k
)
.
P(A_i|B)=\frac{P(A_i)P(B|A_i)}{\sum\limits_{k=1}^n P(A_k)P(B|A_k)}.
P(Ai∣B)=k=1∑nP(Ak)P(B∣Ak)P(Ai)P(B∣Ai).
观察可以发现,Bayes最终求出的概率,是在后验事件
B
B
B发生后完备事件组中事件的发生概率,而这个概率的计算,需要后验事件
B
B
B在各个条件
A
i
A_i
Ai下的条件概率。也就是说,Bayes公式的适用范围是计算完备事件组中事件的后验概率,更多时候,可以把Bayes公式看成是计算“完备事件组中各事件对事件
B
B
B发生起到的贡献(促因)大小”的公式,由于
B
B
B的发生是观测事件的结果,所以Bayes公式也有从结果倒推原因的作用。
在决策领域,Bayes公式也起到原因分担的作用,立足于Bayes理论的决策方式被称为Bayes决策。
3.事件独立性
两个事件独立,指的是这两个事件的发生情况,不会互相影响对方的发生概率,这可以归结为
P
(
A
∣
B
)
=
P
(
A
)
P
(
B
∣
A
)
=
P
(
B
)
.
P(A|B)=P(A)\\ P(B|A)=P(B).
P(A∣B)=P(A)P(B∣A)=P(B).
但如果对上述两式稍作变形,就可以得到一个共同的式子:
P
(
A
B
)
=
P
(
A
)
⋅
P
(
B
)
.
P(AB)=P(A)\cdot P(B).
P(AB)=P(A)⋅P(B).
这种情况下,称
A
A
A与
B
B
B独立。如果
A
A
A与
B
B
B不是独立的,则它们是相依的。一般我们用
P
(
A
B
)
P(AB)
P(AB)与
P
(
A
)
P
(
B
)
P(A)P(B)
P(A)P(B)的关系来判断两个事件是否独立,因为它对零概率事件依然适用。
有了事件独立的定义后,对于两个事件域( σ \sigma σ-代数),也有类似的独立性定义。如果对任意事件 A 1 ∈ F 1 , A 2 ∈ F 2 A_1\in \mathscr F_1,A_2\in \mathscr F_2 A1∈F1,A2∈F2,都有 P ( A 1 ) P ( A 2 ) = P ( A 1 ) P ( A 2 ) P(A_1)P(A_2)=P(A_1)P(A_2) P(A1)P(A2)=P(A1)P(A2),则称两个事件域独立。表面上看,两个事件域独立的条件不好验证,但可以从常识来判断。
- 如果
A
A
A与
B
B
B独立,可以看出
A
ˉ
\bar A
Aˉ与
B
B
B也是独立的,进而
A
ˉ
\bar A
Aˉ和
B
ˉ
\bar B
Bˉ、
A
A
A和
B
ˉ
\bar B
Bˉ都是独立的。要证明这个结论,有
P ( A B ˉ ) = P ( A − A B ) = P ( A ) − P ( A B ) = P ( A ) ( 1 − P ( B ) ) = P ( A ) P ( B ˉ ) . \begin{aligned} P(A \bar B)=&P(A-AB)\\ =&P(A)-P(AB)\\ =&P(A)(1-P(B))\\ =&P(A)P(\bar B). \end{aligned} P(ABˉ)====P(A−AB)P(A)−P(AB)P(A)(1−P(B))P(A)P(Bˉ).
这样就得到事件域 { ∅ , A , A ˉ , Ω } \{\empty, A, \bar A, \Omega\} {∅,A,Aˉ,Ω}与 { ∅ , B , B ˉ , Ω } \{\empty, B, \bar B, \Omega\} {∅,B,Bˉ,Ω}独立,这是构造两个独立 σ \sigma σ-代数的最简单方法。
要将事件独立性的概念推广到多个事件,除了两两间的独立性,还需要保证整体的独立性。如三个事件
A
,
B
,
C
A,B,C
A,B,C的独立的等价条件是
P
(
A
)
P
(
B
)
=
P
(
A
B
)
P
(
A
)
P
(
C
)
=
P
(
A
C
)
P
(
B
)
P
(
C
)
=
P
(
B
C
)
P
(
A
)
P
(
B
)
P
(
C
)
=
P
(
A
B
C
)
.
P(A)P(B)=P(AB)\\ P(A)P(C)=P(AC)\\ P(B)P(C)=P(BC)\\ P(A)P(B)P(C)=P(ABC).
P(A)P(B)=P(AB)P(A)P(C)=P(AC)P(B)P(C)=P(BC)P(A)P(B)P(C)=P(ABC).
而对于
n
n
n个事件
A
1
,
⋯
,
A
n
A_1,\cdots,A_n
A1,⋯,An,其整体独立等价于
P
(
A
i
A
j
)
=
P
(
A
i
)
P
(
A
j
)
,
∀
i
<
j
;
P
(
A
i
A
j
A
k
)
=
P
(
A
i
)
P
(
A
j
)
P
(
A
k
)
,
∀
i
<
j
<
k
;
⋯
P
(
A
1
A
2
⋯
A
n
)
=
P
(
A
1
)
P
(
A
2
)
⋯
P
(
A
n
)
P(A_i A_j)=P(A_i)P(A_j),\quad \forall i< j;\\ P(A_i A_j A_k)=P(A_i)P(A_j)P(A_k),\quad \forall i<j<k;\\ \cdots\\ P(A_1A_2\cdots A_n)=P(A_1)P(A_2)\cdots P(A_n)
P(AiAj)=P(Ai)P(Aj),∀i<j;P(AiAjAk)=P(Ai)P(Aj)P(Ak),∀i<j<k;⋯P(A1A2⋯An)=P(A1)P(A2)⋯P(An)
一共有
2
n
−
n
−
1
2^n -n-1
2n−n−1个式子要满足。要注意,由两两独立是不能推出三个事件独立的。
由多个事件的独立性,也可以同样推广得到多个事件域( σ \sigma σ-代数)的独立性。
事件独立,又可以推广到试验独立。随机试验的独立,指的是对 n n n个试验 E 1 , ⋯ , E n E_1,\cdots,E_n E1,⋯,En,每次试验会出现一个可能结果 A 1 , ⋯ , A n A_1,\cdots,A_n A1,⋯,An,如果对任意的这些事件它们之间都是相互独立的,就称随机试验组 E 1 , ⋯ , E n E_1,\cdots,E_n E1,⋯,En相互独立。比较重要的独立试验是重复独立试验,它指的是将同一个试验反复进行多次,并且试验之间相互独立。