第一章 事件及其概率(1)
1.概率的统计定义
将自然界中的事件分为两种:一种是发生结果确定的,可以分为必然事件与不可能事件;另一种则是某个结果可能发生也可能不发生,称为随机事件。对于某种试验,可能出现多种可能结果,出现的每个结果称为随机事件,简称事件。不同事件发生的可能性有大有小,这种可能性大小的量化指标称为事件的概率。
对于可以重复进行的试验,如果每一次试验之间互不影响,那么,如果 N N N次试验中发生了 n n n次事件 A A A,则称 A A A在 N N N次试验中出现的频率为 F N ( A ) = n N F_N(A)=\frac nN FN(A)=Nn。随着 N N N的增大,频率会收敛于一个常数 P ( A ) P(A) P(A),将这个常数称为事件 A A A发生的概率,这就是概率的统计定义。
事件的频率与概率都具有三个基本性质:
- 非负性: F A ( N ) ≥ 0 , P ( A ) ≥ 0 F_A(N)\ge 0,P(A)\ge 0 FA(N)≥0,P(A)≥0。
- 规范性:对必然事件 Ω \Omega Ω,有 F N ( Ω ) = 1 , P ( Ω ) = 1 F_N(\Omega)=1,P(\Omega)=1 FN(Ω)=1,P(Ω)=1。
- 可加性:对两个不会同时发生的事件 A , B A,B A,B,记 A + B A+B A+B为 A A A或 B B B至少出现其一这一事件,则 F N ( A + B ) = F N ( A ) + F N ( B ) , P ( A + B ) = P ( A ) + P ( B ) F_N(A+B)=F_N(A)+F_N(B),P(A+B)=P(A)+P(B) FN(A+B)=FN(A)+FN(B),P(A+B)=P(A)+P(B)。这一性质可以推广到任意有限个事件。
2.古典概型与几何概型
样本空间与样本点:对于某一个随机试验,将每一个可能发生的事件用一个样本点
ω
i
\omega_i
ωi代替,则所有这样的样本点构成样本空间
Ω
\Omega
Ω,即
Ω
=
{
ω
1
,
ω
2
,
⋯
,
ω
n
}
\Omega=\{\omega_1,\omega_2,\cdots,\omega_n\}
Ω={ω1,ω2,⋯,ωn}
当然,并不是所有的样本空间中包含的样本点都是有限的或者可列的,但对于每一次试验,一定会发生有且仅有一个样本点。对同一个问题,可以设置不同的样本空间和样本点,在讨论具体问题前要先明确样本空间和样本点。
有两类特殊的样本空间,分别对应着古典概型和几何概型。
古典概型的特点是:样本空间是有限的,且每个样本点发生的概率相同。这样,如果样本空间含
n
n
n个样本点,且事件
A
A
A恰好包含其中的
m
m
m个样本点,则有
P
(
A
)
=
m
n
=
A
包
含
的
样
本
点
数
样
本
空
间
中
样
本
点
的
总
数
P(A)=\frac mn=\frac{A包含的样本点数}{样本空间中样本点的总数}
P(A)=nm=样本空间中样本点的总数A包含的样本点数
古典概型还可以推广到每个样本点发生概率不同的情况,如果
Ω
=
{
ω
1
,
⋯
,
ω
n
}
\Omega=\{\omega_1,\cdots,\omega_n\}
Ω={ω1,⋯,ωn},且样本点
ω
i
\omega_i
ωi发生的概率为
p
i
>
0
p_i>0
pi>0,
∑
i
=
1
n
p
i
=
1
\sum\limits_{i=1}^n p_i=1
i=1∑npi=1。这样,事件
A
A
A的概率可以写成
P
(
A
)
=
∑
i
:
ω
i
∈
A
p
i
P(A)=\sum_{i:\omega_i\in A}p_i
P(A)=i:ωi∈A∑pi
几何概型的样本空间
Ω
\Omega
Ω是一个包含无限个点的区域(维数不限),样本点是区域中的每一个点,这样,如果事件
A
g
A_g
Ag包含的样本点构成区域
g
g
g,则有
P
(
A
g
)
=
g
的
测
度
Ω
的
测
度
P(A_g)=\frac{g的测度}{\Omega的测度}
P(Ag)=Ω的测度g的测度
3.概率的公理化定义
现在将样本空间看作讨论问题的全集 Ω \Omega Ω,样本点是集合中的元素,那么事件可以被定义为样本点的集合。如果某一次实验中样本点 ω \omega ω出现且 ω ∈ A \omega\in A ω∈A,则称事件 A A A发生。同时将 Ω \Omega Ω看成必然事件, ∅ \emptyset ∅看成不可能事件,则每一个样本点的集合对应一个事件,这样就可以用集合论的方法来研究事件。
类似集合,定义事件之间的关系:
- A ⊃ B A\supset B A⊃B: A A A包含 B B B,即 ∀ ω ∈ B , ω ∈ A \forall \omega \in B,\omega \in A ∀ω∈B,ω∈A。
- A = B A=B A=B: A A A与 B B B相等,即 A ⊃ B , B ⊃ A A\supset B,B\supset A A⊃B,B⊃A。
- A ∪ B A\cup B A∪B: A A A与 B B B的并事件,即 A , B A,B A,B至少发生一个。
- A ∩ B A\cap B A∩B: A A A与 B B B的交事件,即 A , B A,B A,B都发生,也记作 A B AB AB。
- A ∖ B A\setminus B A∖B: A A A与 B B B的差事件,即 A A A发生但 B B B不发生。如果有 B ⊂ A B\sub A B⊂A,则也可以记作 A − B A-B A−B。
- A ∩ B = ∅ A\cap B=\empty A∩B=∅:代表 A , B A,B A,B不会同时发生,即互不相容。
- A ˉ \bar A Aˉ:代表 A A A的逆(对立)事件,即 A A A不发生。
关于这些事件间关系,有以下的运算关系:
- A ∪ B = B ∪ A A\cup B=B\cup A A∪B=B∪A, A B = B A AB=BA AB=BA。
- ( A ∪ B ) ∪ C = A ∪ ( B ∪ C ) (A\cup B)\cup C=A\cup (B\cup C) (A∪B)∪C=A∪(B∪C), ( A B ) C = A ( B C ) (AB)C=A(BC) (AB)C=A(BC)。
- ( A ∪ B ) C = A C ∪ B C (A\cup B)C=AC\cup BC (A∪B)C=AC∪BC, ( A B ) ∪ C = ( A ∪ C ) ( B ∪ C ) (AB)\cup C=(A\cup C)(B\cup C) (AB)∪C=(A∪C)(B∪C)。
- A ∪ B ‾ = A ˉ B ˉ \overline {A\cup B}=\bar A\bar B A∪B=AˉBˉ, A B ‾ = A ˉ ∪ B ˉ \overline {AB}=\bar A \cup \bar B AB=Aˉ∪Bˉ。
- A ∖ B = A B ˉ A\setminus B=A \bar B A∖B=ABˉ。
运用以上事件之间的运算关系,可以由一系列基本事件表达复杂事件。
用集合定义了事件以后,就可以描述概率空间了。概率空间是一个由样本空间、事件域、概率组成的三元组 ( Ω , F , P ) (\Omega,\mathscr F,P) (Ω,F,P)。
这里 Ω \Omega Ω是样本空间,也就是样本点的全体,根据问题适当选择。
F \mathscr F F是事件域,也就是事件的集合,而事件又是样本点的集合,也就是说 F \mathscr F F中的元素都是由样本点构成的集合。同时,一个事件域 F \mathscr F F还需要满足以下条件:
- Ω ∈ F \Omega \in \mathscr F Ω∈F。
- 若 A ∈ F A\in \mathscr F A∈F,则有 A ˉ ∈ F \bar A\in \mathscr F Aˉ∈F。
- 若 A 1 , ⋯ , A n , ⋯ ∈ F A_1,\cdots,A_n,\cdots\in \mathscr F A1,⋯,An,⋯∈F,则 ⋃ i = 1 ∞ A i ∈ F \bigcup\limits_{i=1}^\infty A_i\in \mathscr F i=1⋃∞Ai∈F。
满足以上三个条件的事件域 F \mathscr F F称为 σ \sigma σ-代数。并且可以推出对于任何一个事件域,必然事件、不可能事件、事件的逆、有限并、有限交、可列无限并、可列无限交等等在事件域内。最小的事件域是 { Ω , ∅ } \{\Omega ,\empty\} {Ω,∅}。
- 有一种特殊的 σ \sigma σ-代数称为(一维)Borel σ \sigma σ-代数,它的样本空间是 Ω = R \Omega=\R Ω=R,取一切左开右闭区间以及它们的并、交、逆所构成的集合为事件域 F \mathscr F F,这样的事件域 F \mathscr F F称为Borel σ \sigma σ-代数。
- 对于样本空间 Ω \Omega Ω为有限或可列个样本点组成的情况,常常取事件域 F \mathscr F F为一切 Ω \Omega Ω的子集构成的集合。
- 如果只对 Ω \Omega Ω的一个子集 A A A感兴趣,则包含 A A A的最小 σ \sigma σ-代数是 { ∅ , A , A ˉ , Ω } \{\empty,A,\bar A,\Omega\} {∅,A,Aˉ,Ω}。
概率 P P P指的是定义在 F \mathscr F F上的函数 A ↦ P A\mapsto P A↦P,并且满足:
- 非负性: P ( A ) ≥ 0 P(A)\ge 0 P(A)≥0。
- 规范性: P ( Ω ) = 1 P(\Omega)=1 P(Ω)=1。
- 可列可加性:若 A 1 , ⋯ , A n , ⋯ A_1,\cdots,A_n,\cdots A1,⋯,An,⋯两两不相容,则 P ( ∑ i = 1 n A i ) = ∑ i = 1 n P ( A i ) P(\sum\limits_{i=1}^n A_i)=\sum\limits_{i=1}^n P(A_i) P(i=1∑nAi)=i=1∑nP(Ai)。
需要注意的是,概率的公理化定义并不能简化事件概率的计算,只是为概率理论奠定了基础,因此只需要能识别并区分样本空间、事件域以及明确概率是定义在事件域上的函数即可。
由于事件用集合来定义,再结合概率的基本性质,可以推导出事件的概率具有以下的性质:
-
P ( ∅ ) = 0 P(\empty )=0 P(∅)=0,由于 Ω = Ω + ∅ + ∅ + ⋯ \Omega=\Omega+\empty+\empty+\cdots Ω=Ω+∅+∅+⋯,对两边同时求概率并由不相容事件的可列可加性,可以得到
P ( Ω ) = P ( Ω ) + P ( ∅ ) + P ( ∅ ) + ⋯ P(\Omega)=P(\Omega)+P(\empty)+P(\empty)+\cdots P(Ω)=P(Ω)+P(∅)+P(∅)+⋯
又由于概率的非负性,有 P ( ∅ ) = 0 P(\empty)=0 P(∅)=0。 -
有限可加性:对于不相容的一列事件 A 1 , ⋯ , A n A_1,\cdots,A_n A1,⋯,An,有
P ( ∑ i = 1 n A i ) = ∑ i = 1 n P ( A i ) P(\sum_{i=1}^n A_i)=\sum_{i=1}^n P(A_i) P(i=1∑nAi)=i=1∑nP(Ai)
只要将有限事件列扩展为无限事件列 A 1 , ⋯ , A n , ∅ , ⋯ A_1,\cdots,A_n,\empty,\cdots A1,⋯,An,∅,⋯即可。 -
若 B ⊂ A B\sub A B⊂A,则 P ( A − B ) = P ( A ) − P ( B ) P(A-B)=P(A)-P(B) P(A−B)=P(A)−P(B)。只需令 A = B + ( A − B ) A=B+(A-B) A=B+(A−B),显然有 B B B与 A − B A-B A−B不相容,那么有 P ( A ) = P ( B ) + P ( A − B ) P(A)=P(B)+P(A-B) P(A)=P(B)+P(A−B)。
-
P ( A ∪ B ) = P ( A ) + P ( B ) − P ( A B ) P(A\cup B)=P(A)+P(B)-P(AB) P(A∪B)=P(A)+P(B)−P(AB),这里 A ∪ B = A ∪ ( B − A B ) A\cup B=A\cup (B-AB) A∪B=A∪(B−AB),且 A ∩ ( B − A B ) = ∅ , A B ⊂ B A\cap (B-AB)=\empty,AB\sub B A∩(B−AB)=∅,AB⊂B,于是
P ( A ∪ B ) = P ( A ) + P ( B − A B ) = P ( A ) + P ( B ) − P ( A B ) P(A\cup B)=P(A)+P(B-AB)=P(A)+P(B)-P(AB) P(A∪B)=P(A)+P(B−AB)=P(A)+P(B)−P(AB) -
多还少补定理:
P ( A 1 ∪ ⋯ ∪ A n ) = ∑ i = 1 n P ( A i ) − ∑ 1 ≤ i < j ≤ n P ( A i A j ) + ⋯ + ( − 1 ) n − 1 P ( A 1 ⋯ A n ) P(A_1\cup\cdots\cup A_n)=\sum_{i=1}^n P(A_i)-\sum_{1\le i<j\le n} P(A_i A_j)+\cdots+(-1)^{n-1}P(A_1\cdots A_n) P(A1∪⋯∪An)=i=1∑nP(Ai)−1≤i<j≤n∑P(AiAj)+⋯+(−1)n−1P(A1⋯An)
可以从4由归纳法证明。 -
次可加性: P ( ⋃ i = 1 N A i ) ≤ ∑ i = 1 N P ( A i ) P(\bigcup\limits_{i=1}^N A_i)\le \sum\limits_{i=1}^N P(A_i) P(i=1⋃NAi)≤i=1∑NP(Ai)。
概率测度具有连续性,这指的是对于一系列单调增加的事件序列
A
1
⊂
A
2
⊂
⋯
⊂
A
n
⊂
⋯
A_1\sub A_2\sub\cdots\sub A_n\sub \cdots
A1⊂A2⊂⋯⊂An⊂⋯,具有极限
A
A
A,即
lim
n
→
∞
A
n
=
⋃
i
=
1
∞
A
i
=
A
\lim\limits_{n\to \infty} A_n=\bigcup\limits_{i=1}^\infty A_i =A
n→∞limAn=i=1⋃∞Ai=A,则有
P
(
lim
n
→
∞
A
n
)
=
P
(
A
)
=
lim
n
→
∞
P
(
A
n
)
P(\lim_{n\to \infty }A_n)=P(A)=\lim_{n\to \infty }P(A_n)
P(n→∞limAn)=P(A)=n→∞limP(An)
同理对于一列单调减少的事件序列
A
1
⊃
A
2
⊃
⋯
⊃
A
n
⊃
⋯
A_1\supset A_2\supset \cdots\supset A_n \supset \cdots
A1⊃A2⊃⋯⊃An⊃⋯,具有极限
A
A
A,即
lim
n
→
∞
A
n
=
⋂
i
=
1
∞
A
i
=
A
\lim\limits_{n\to \infty}A_n=\bigcap\limits_{i=1}^\infty A_i=A
n→∞limAn=i=1⋂∞Ai=A,同样有
P
(
lim
n
→
∞
A
n
)
=
P
(
A
)
=
lim
n
→
∞
P
(
A
n
)
P(\lim_{n\to \infty} A_n)=P(A)=\lim_{n\to \infty }P(A_n)
P(n→∞limAn)=P(A)=n→∞limP(An)