1. 导言
微积分的学习顺序是先学微分再学积分。但是从认知上看,先辨析清楚“面积/测度/概率”的概念,再考虑相应的变化:导数/微分/分布函数,应该更加自然。我们将按照这样的顺序,介绍现代分析学和概率论的数学基础。
2. 测度/概率的直观引入
为了定义测度/概率,我们需要给一些特定的集合赋予一些数,使之满足我们对面积/概率的期望,这样自然产生了两个问题:
a. 所有的集合都可以赋予面积/概率的概念吗?
b. 这些被赋予的数应该满足什么条件,才能符合我们对面积/概率的认知?
为了回答问题a和b,我们考虑最简单的离散概率模型。考虑掷 n n n粒骰子,那么可能的输出结果为 ( k 1 , ⋯ , k n ) (k_1,\cdots,k_n) (k1,⋯,kn),其中 k 1 , ⋯ , k n ∈ { 1 , 2 , 3 , 4 , 5 , 6 } k_1,\cdots, k_n\in\{1,2,3,4,5,6\} k1,⋯,kn∈{
1,2,3,4,5,6}。这些可能的输出结果 ( k 1 , ⋯ , k n ) (k_1,\cdots,k_n) (k1,⋯,kn)称为样本,所有的输出结果形成一个集合
Ω = { ( k 1 , ⋯ , k n ) : k 1 , ⋯ , k n ∈ { 1 , 2 , 3 , 4 , 5 , 6 } } , \Omega=\{(k_1,\cdots,k_n):k_1,\cdots, k_n\in\{1,2,3,4,5,6\}\}, Ω={
(k1,⋯,kn):k1,⋯,kn∈{
1,2,3,4,5,6}},
我们称 Ω \Omega Ω为样本空间。 Ω \Omega Ω的基数为 6 n 6^n 6n。 Ω \Omega Ω的任何一个子集 S S S表示的是“掷骰子的结果在 S S S中”这一事件,这一事件我们相信是能达到的,因此, 2 Ω 2^{\Omega} 2Ω表示所有以 Ω \Omega Ω为样本空间的事件,称之为事件域。我们给事件域中的每个事件赋予一个数,称为该事件的概率(面积/测度),直观上,这个数应该是 [ 0 , 1 ] [0,1] [0,1]中的任何实数。也就是定义了映射
P : 2 Ω → [ 0 , 1 ] , P ( k 1 , ⋯ , k n ) = 6 − n \mathbb{P}:2^{\Omega}\rightarrow [0,1],\mathbb{P}(k_1,\cdots,k_n)=6^{-n} P:2Ω→[0,1],P(k1,⋯,kn)=6−n
我们现在把事件域 2 Ω 2^{\Omega} 2Ω用 F \mathscr{F} F表示(这是惯例),于是我们有了一个完整的概率模型 ( Ω , F , P ) (\Omega,\mathscr{F},\mathbb{P}) (Ω,F,P),称之为概率空间。这个概率空间模拟的是随机丢 n n n次骰子这一试验。这个概率空间满足条件:
- P ( Ω ) = 1 \mathbb{P}(\Omega)=1 P(Ω)=1。
- P ( { ω } ) = 1 / ∣ Ω ∣ \mathbb{P}(\{\omega\})=1/|\Omega| P({ ω})=1/∣Ω∣。
- 对于不交的事件 A , B A,B A,B, P ( A ∪ B ) = P ( A ) + P ( B ) \mathbb{P}(A\cup B)=\mathbb{P}(A)+\mathbb{P}(B) P(A∪B)=P(A)+P(B)。
不难看出,条件2是不必要的,因为对于一般的概率模型,不同样本的概率很可能不同。这个例子告诉我们,对于任何有限集合,我们都可以在其幂集上定义一个满足条件1,2,3的一致概率(面积/测度)。但接下来这个例子告诉我们,当一个集合被赋予满足条件1和3的概率后,存在一些子集关于这个概率是病态的,因此我们不应该给所有的子集都赋予概率。
考虑掷无穷多次硬币,硬币正面记为 1 1 1,反面记为 0 0 0。则可能的输出结果为 ( δ 1 , ⋯ , δ n , ⋯ ) (\delta_1,\cdots,\delta_n,\cdots) (δ1,⋯,δn,⋯),其中 δ j ∈ { 0 , 1 } \delta_j\in \{0,1\} δj∈{
0,1}。定义映射
Φ : ( 0 , 1 ] → R N , x ↦ B i n a r y ( x ) \Phi:(0,1]\rightarrow \mathbb{R}^\mathbb{N}, x\mapsto \mathrm{Binary}(x) Φ:(0,1]→RN,x↦Binary(x)
其中 B i n a r y ( x ) \mathrm{Binary}(x) Binary(x)表示 x x x的二进制,由于有一些数会产生两种二进制,比如 1 2 = 0.011 ⋯ = 0.100 ⋯ \frac{1}{2}=0.011\cdots=0.100\cdots 21=0.011⋯=0.100⋯,我们取有无穷多个 1 1 1的表示,即 B i n a r y ( 1 2 ) = 0.011 ⋯ \mathrm{Binary}(\frac{1}{2})=0.011\cdots Binary(21)=0.011⋯。不难看出, Φ \Phi Φ是单射,且 Φ \Phi Φ的像加上 ( 0 , 0 , ⋯ ) (0,0,\cdots) (0,0,⋯)就是所有可能的输出结果,因此样本空间 Ω = I m Φ ∪ ( 0 , 0 , ⋯ ) \Omega=\mathrm{Im}\,\Phi\cup (0,0,\cdots) Ω=ImΦ∪(0,0,⋯),根据 Φ \Phi Φ的对应关系,我们可以将样本空间看成 Ω = { 0 } ∪ ( 0 , 1 ] \Omega=\{0\}\cup(0,1] Ω={
0}∪(0,1]。假设我们在 2 Ω 2^\Omega 2Ω上给出了满足条件1,3的一致概率 P \mathbb{P} P,则任何一个样本的概率是 0 0 0,否则根据条件3得到全空间 Ω \Omega Ω的概率为 ∞ \infty ∞。因此我们得到条件:
- 对于不可数个不交的事件,概率不能满足可加性。
根据条件3和概率的一致性,我们得到对于二分区间和其可数个二分区间子集, P \mathbb{P} P满足可数可加性。因此我们加强条件3为
- 对于可数个不交事件 A 1 , ⋯ , A n , ⋯ A_1,\cdots,A_n,\cdots A1,⋯,An,⋯, P ( ⋃ i = 1 ∞ A i ) = ∑ i = 1 ∞ P ( A i ) \mathbb{P}(\bigcup_{i=1}^\infty A_i)=\sum_{i=1}^\infty\mathbb{P}(A_i) P(⋃i=1∞Ai)=∑i=1∞P(Ai)。
注:条件5实际上是个很奇怪的条件,因为我们不能通过已有的条件1,3,4推出条件5。然而我们已经推出了对于二分区间条件5成立,因此其又是一个自然的条件。事实上,关于应该选择可数可加性(CA)还是有限可加性(FA)仍是众说纷纭的问题,反对使用CA的数学家有De Finetti,Savage等。1983年出版的《Theory of Charges: A Study of Finitely Additive Measures》就是研究FA的数学理论,感兴趣的读者可阅读这篇19年的文章。
现在我们总结出我们对概率的几条期望,这些期望通常被称为概率公理:对于样本空间 Ω \Omega Ω和事件域 F ⊂ 2 Ω \mathscr{F}\subset 2^{\Omega} F⊂2Ω,概率为 P : F → [ 0 , 1 ] \mathbb{P}:\mathscr{F}\rightarrow [0,1] P:F→[0,1]且满足如下条件:
- P ( Ω ) = 1 \mathbb{P}(\Omega)=1 P(Ω)=1且 P ( ∅ ) = 0 \mathbb{P}(\empty)=0 P(∅)=0。
- 对于可数个不交事件 A 1 , ⋯ , A n , ⋯ ∈ F A_1,\cdots,A_n,\cdots\in \mathscr{F} A1,⋯,An,⋯∈F, P ( ⋃ i = 1 ∞ A i ) = ∑ i = 1 ∞ P ( A i ) \mathbb{P}(\bigcup_{i=1}^\infty A_i)=\sum_{i=1}^\infty\mathbb{P}(A_i) P(⋃i=1∞Ai)=∑i=1∞P(Ai)。
概率公理1和2回答了问题b,只有满足概率公理1和2的函数,才能被称为概率。而问题a的等价形式是事件域 F \mathscr{F} F是否是 2 Ω 2^\Omega 2Ω,答案是否定的,对于满足概率公理1和2的概率, F \mathscr{F} F不一定是 2 Ω 2^\Omega 2Ω。我们假设 Ω = [ 0 , 1 ] \Omega=[0,1] Ω=[0,1], P \mathbb{P} P是 2 Ω 2^\Omega 2Ω上平移不变的概率(平移不变的概率是否存在现在还不知道,我们以后将构造一个平移不变的概率——Lebesgue测度),根据选择公理(Axiom of Choice),我们可以从集合 S = [ 1 3 , 2 3 ] / Q S=[\frac{1}{3},\frac{2}{3}]/\mathbb{Q} S=[31,32]/Q的每个元素 [ x ] [x] [x]中取出一个代表元 x x x,所有这样的 x x x构成一个集合 V V V, V ⊂ [ 1 3 , 2 3 ] V\subset [\frac{1}{3},\frac{2}{3}] V⊂[31,32], V V V满足如下条件:
- 对任何有理数 r r r, V r = V + r V_r=V+r Vr<