第五章大数定律与中心极限定理

1. 随机变量的收敛性

(1) 依概率收敛

定义1 设 $\{X_n,n=1,2,\cdots\}$ 是随机变量序列， $X$ 也是一个随机变量，若 $\forall\varepsilon>0,\lim\limits_{n\to\infty}P\{|X_n-X|\ge\varepsilon\}=0$ 则称随机变量序列 ${X_n\}$ 依概率收敛于 $X$ ，记作 $(p)\lim\limits_{n\to\infty}X_n=X$ 或者 $X_n\overset{P}{\to}X$ 。

依概率收敛表明：随机变量 $X_n$ 对 $X$ 的绝对偏差不小于任意给定正数（即 $\varepsilon$ ）的概率随着 $n$ 增大而越来越接近于 $0$ 。

上述定义也等价于 $\forall\varepsilon>0,\lim\limits_{n\to\infty}P\{|X_n-X|<\varepsilon\}=1$ 。

特别地，当随机变量 $X$ 为单点分布，即 $P\{X=a\}=1$ ，则称序列 $X_n$ 依概率收敛于 $a$ ，即 $X_n\overset{P}{\to}a$ 。

依概率收敛于常数的随机变量序列的性质：
(1) $(p)\lim\limits_{n\to\infty}X_n=a,(p)\lim\limits_{n\to\infty}Y_n=b,g(x,y)$ 在点 $(a, b)$ 处连续 $\implies(p)\lim\limits_{n\to\infty}g(X_n,Y_n)=g(a,b)$
(2) $(p)\lim\limits_{n\to\infty}(X_n\pm Y_n)=a\pm b$
(3) $(p)\lim\limits_{n\to\infty}X_nY_n=ab$
(4) $(p)\lim\limits_{n\to\infty}\frac{X_n}{Y_n}=\frac{a}{b}\ (Y_n\ne 0,b\ne 0)$

一般地，依概率收敛的随机变量序列也具有四则运算性质。

(2) 依分布收敛

定义2 设 $\{X_n,n=1,2,\cdots\}$ 为随机变量序列，其对应的分布函数序列为 $\{F_n(x),n=1,2,\cdots\}$ ， $X$ 是另一随机变量，其分布函数为 $F (x)$ 。若对 $F (x)$ 的每个连续点 $x$ ，有 $\lim\limits_{n\to\infty}F_n(x)=F(x)$ ，则称随机变量序列 ${X_n\}$ 依分布收敛于 $X$ ，记作 $X_n\overset{d}{\to}X$ ，或称分布函数序列 $\{F_n(x),n=1,2,\cdots\}$ 弱收敛于 $F (x)$ ，记作 $F_n(x)\overset{w}{\to}F(x)$ 。

2. 大数定律

(1) 马尔可夫不等式

定理3（马尔可夫不等式） 设 $X$ 为随机变量，若 $E(|X|^r)$ 有限，其中 $r > 0$ 为实数，则 $\forall\varepsilon>0,P\{|X|\ge\varepsilon\}\le\frac{E(|X|^r)}{\varepsilon^r}$ 部分证明：
当 $X$ 为连续型随机变量时，设 $X$ 的概率密度为 $f (x)$ ，则 $P\{|X|\ge\varepsilon\}=\int\limits_{|x|\ge\varepsilon}f(x)\text{d}x$ 因为在积分范围内 $|x|\ge\varepsilon$ ，故 $\frac{|x|^r}{\varepsilon^r}\ge1$ ，于是 $\int\limits_{|x|\ge\varepsilon}f(x)\text{d}x\le\int\limits_{|x|\ge\varepsilon}\frac{|x|^r}{\varepsilon^r}f(x)\text{d}x$ 其中 $\varepsilon^r$ 为常数，提出来就得到 $\int\limits_{|x|\ge\varepsilon}\frac{|x|^r}{\varepsilon^r}f(x)\text{d}x=\frac{1}{\varepsilon^r}\int\limits_{|x|\ge\varepsilon}|x|^rf(x)\text{d}x$ 把积分范围扩大到 $(-\infty,+\infty)$ ，积分值也会变大，故 $\frac{1}{\varepsilon^r}\int\limits_{|x|\ge\varepsilon}|x|^rf(x)\text{d}x\le\frac{1}{\varepsilon^r}\int_{-\infty}^{+\infty}|x|^rf(x)\text{d}x=\frac{E(|X|^r)}{\varepsilon^r}$ 综上， $P\{|X|\ge\varepsilon\}\le\frac{E(|X|^r)}{\varepsilon^r}$ 。

当 $X$ 为离散型随机变量时，证明过程类似： $\begin{aligned}P\{|X|\ge\varepsilon\}&=\sum\limits_{|x_i|\ge\varepsilon}p_i\\ &\le\sum\limits_{|x_i|\ge\varepsilon}\frac{|x|^r}{\varepsilon^r}p_i\\ &\le\sum\limits_{i}\frac{|x|^r}{\varepsilon^r}p_i=\frac{1}{\varepsilon^r}\sum\limits_{i}|x|^rp_i\\ &=\frac{E(|X|^r)}{\varepsilon^r}\end{aligned}$ 其他情况的证明从略。∎

(2) 切比雪夫不等式

定理4（切比雪夫不等式） 若随机变量 $X$ 存在数学期望 $E (X)$ 和方差 $D (X)$ ，则 $\forall\varepsilon>0$ ， $P\{|X-E(X)|\ge\varepsilon\}\le\frac{D(X)}{\varepsilon^2}$ 或等价地有 $P\{|X-E(X)|<\varepsilon\}\ge1-\frac{D(X)}{\varepsilon^2}$ 证明：在马尔可夫不等式中以 $X - E (X)$ 代 $X$ 并令 $r = 2$ 即可。∎

(3) 切比雪夫大数定律

定理5（切比雪夫大数定律） 设 $\{X_n,n=1,2,\cdots\}$ 是相互独立的随机变量序列，且分别存在数学期望 $E(X_k)$ 和方差 $D(X_k)\ (k=1,2,\cdots)$ 。若存在常数 $C$ ，使得 $\forall k=1,2,\cdots$ 都有 $D(X_k)\le C$ （即序列 ${D(X_k)\}$ 有界），则 $\forall\varepsilon>0,\lim\limits_{n\to\infty}P\left\{\left|\frac{1}{n}\sum\limits_{k=1}^n X_k-\frac{1}{n}\sum\limits_{k=1}^n E(X_k)\right|\le\varepsilon\right\}=1$ 证明：令 $Y_n=\frac{1}{n}\sum\limits_{k=1}^nX_k$ ，则由切比雪夫不等式可得下面的不等式 $1\ge P\{|Y_n-E(X_n)|<\varepsilon\}\ge 1-\frac{D(Y_n)}{\varepsilon^2}\ge 1-\frac{C}{n\varepsilon^2}$ 其中第一个 $\ge$ 是显然的（概率的定义），第二个 $\ge$ 由切比雪夫不等式的第二种形式得出，第三个 $\ge$ 由 $C$ 的定义得出。
那么，令 $n\to\infty$ ，由数列极限的夹逼准则知 $1\ge\lim\limits_{n\to\infty}P\{|Y_n-E(X_n)|<\varepsilon\}\ge\lim\limits_{n\to\infty}1-\frac{C}{n\varepsilon^2}=1$ 故 $\lim\limits_{n\to\infty}P\{|Y_n-E(X_n)|<\varepsilon\}=1$ 注意到 $E(Y_n)=E\left(\frac{1}{n}\sum\limits_{k=1}^n X_k\right)=\frac{1}{n}\sum\limits_{k=1}^n E(X_k)$ ，把 $Y_n$ 和 $E(Y_n)$ 的表达式代入上式即证明了该定理。∎

推论6 设 $\{X_n,n=1,2,\cdots\}$ 是相互独立的随机变量序列，且存在相同的数学期望 $E(X_k)=\mu$ 和方差 $D(X_k)=\sigma^2\ (k=1,2,\cdots)$ ，则 $\forall\varepsilon>0,\lim\limits_{n\to\infty}P\left\{\left|\frac{1}{n}\sum\limits_{k=1}^nX_k-\mu\right|<\varepsilon\right\}=1$ 这表明，对于一个概率分布未知的随机变量 $X$ ，为了估算 $E (X)$ 我们可以做 $n$ 重观测试验，第 $k$ 次试验结果为 $X_k$ ，每个 $X_k$ 是独立同分布的，那么当 $n$ 充分大时， $\forall\varepsilon>0,P\left\{\left|\frac{1}{n}\sum\limits_{k=1}^nX_k-\mu\right|<\varepsilon\right\}$ 会越来越接近 $1$ ，故 $E (X)$ 可以由这 $n$ 次试验结果的算术平均值估计。

(4) 伯努利大数定律

定理7（伯努利大数定律） 设 $n_A$ 是 $n$ 次独立重复试验中事件 $A$ 发生的次数， $p$ 是事件 $A$ 在每次试验发生的概率，则 $\forall\varepsilon>0$ ， $\lim\limits_{n\to\infty}P\left\{\left|\frac{n_A}{n}-p\right|<\varepsilon\right\}=1$ 或 $\lim\limits_{n\to\infty}P\left\{\left|\frac{n_A}{n}-p\right|\ge\varepsilon\right\}=0$ 证明：引入随机变量 $X_k=\begin{cases}1,&\text{第}k\text{次试验中}A\text{发生}\\0,&\text{第}k\text{次试验中}A\text{不发生}\end{cases}$ ， $k=1,2,\cdots$ ，显然 $n_A=X_1+X_2+\cdots+X_n$ 。又显然 $X_1,X_2,\cdots,X_n$ 是相互独立的，且 $E(X_k)=p$ ， $D(X_k)=p(1-p)\ (k=1,2,\cdots)$ 。根据推论6，得 $\lim\limits_{n\to\infty}P\left\{\left|\frac{1}{n}\sum\limits_{k=1}^nX_k-p\right|<\varepsilon\right\}=1$ 即 $\lim\limits_{n\to\infty}P\left\{\left|\frac{n_A}{n}-p\right|<\varepsilon\right\}=1$ ∎

此定律表明，当试验次数很大时，便可以用事件发生的频率近似替代事件发生的概率。

(5) 辛钦大数定律

定理8（辛钦大数定律） 设 $\{X_n,n=1,2,\cdots\}$ 是独立同分布的随机变量序列，且 $E(X_k)=\mu\ (k=1,2,\cdots)$ 存在，则 $\forall\varepsilon>0,\lim\limits_{n\to\infty}P\left\{\left|\frac{1}{n}\sum\limits_{k=1}^n X_k-\mu\right|<\varepsilon\right\}=1$ 即 $\frac{1}{n}\sum\limits_{k=1}^n X_k\overset{P}{\to}\mu$ 。

辛钦大数定律取消了切比雪夫大数定律对方差的苛刻要求，而以“独立同分布”作为补偿。

3. 中心极限定理

(1) 独立同分布中心极限定理

定理9（独立同分布中心极限定理） 设 $\{X_n,n=1,2,\cdots\}$ 是独立同分布的随机变量序列，且有有限的数学期望和方差： $E(X_k)=\mu$ ， $D(X_k)=\sigma^2\ne0\ (k=1,2,\cdots)$ ，则随机变量 $Y_n=\frac{\sum\limits_{k=1}^n X_k-E\left(\sum\limits_{k=1}^n X_k\right)}{\sqrt{D\left(\sum\limits_{k=1}^n X_k\right)}}=\frac{\sum\limits_{k=1}^n X_k-n\mu}{\sqrt{n}\sigma}$ 的分布函数 $F_n(x)$ 对任意实数 $x$ ，都有 $\lim\limits_{n\to\infty} F_n(x)=\lim\limits_{n\to\infty} P\left\{\frac{\sum\limits_{k=1}^n X_k-n\mu}{\sqrt{n}\sigma}\le x\right\}=\int_{-\infty}^x \frac{1}{\sqrt{2\pi}}e^{-\frac{t^2}{2}}\text{d}t=\Phi(x)$ 由此定理可知，当 $n$ 很大时，以下关系近似成立：
(1) $Y_n\text{\large\textasciitilde}N(0,1)$
(2) $\sum\limits_{k=1}^n X_k\text{\large\textasciitilde}N(n\mu,n\sigma^2)$
(3) $\overline{X}=\frac{1}{n}\sum\limits_{k=1}^n X_k\text{\large\textasciitilde}N\left(\mu,\frac{\sigma^2}{n}\right)$

这篇文章中的一段文字概括地十分形象：
在这里插入图片描述

(2) 棣莫弗-拉普拉斯中心极限定理

定理10（棣莫弗-拉普拉斯中心极限定理） 设随机变量 $\eta_n\ (n=1,2,\cdots)$ 服从参数为 $n,p\ (0<p<1)$ 的二项分布，则对于任意区间 $(a, b]$ ，恒有 $\lim\limits_{n\to\infty}P\left\{a<\frac{\eta_n-np}{\sqrt{np(1-p)}}\le b\right\}=\int_a^b\frac{1}{\sqrt{2\pi}}e^{-\frac{t^2}{2}}\text{d}t=\Phi(b)-\Phi(a)$ 证明：将 $\eta_n$ 分解为 $n$ 个相互独立且服从(0-1)分布的随机变量 $X_1,X_2,\cdots,X_n$ 之和，即 $\eta_n=X_1+X_2+\cdots+X_n$ ，其中 $X_k\text{\large\textasciitilde}B(1,p)\ (k=1,2,\cdots)$ 。由于 $E(X_k)=p,D(X_k)=p(1-p)$ ，故由定理9（独立同分布中心极限定理）有 $\lim\limits_{n\to\infty}P\left\{\frac{\eta_n-np}{\sqrt{np(1-p)}}\le x\right\}=\lim\limits_{n\to\infty}P\left\{\frac{\sum\limits_{k=1}^n X_k-np}{\sqrt{np(1-p)}}\le x\right\}=\Phi(x)$ 于是对于任意区间 $(a, b]$ 有 $\lim\limits_{n\to\infty}P\left\{a<\frac{\eta_n-np}{\sqrt{np(1-p)}}\le b\right\}=\int_a^b\frac{1}{\sqrt{2\pi}}e^{-\frac{t^2}{2}}\text{d}t$ ∎

这个定理表明，二项分布的极限分布是正态分布。

补充——泊松大数定律

定理11（泊松大数定律） 若事件 $A$ 在第 $k$ 次试验中发生的概率为 $p_k\ (k=1,2,\cdots,n,\cdots)$ 且各次试验是独立进行的， $m$ 表示 $n$ 次试验中事件 $A$ 发生的次数，则 $\forall\varepsilon>0,\lim\limits_{n\to\infty}P\left\{\left|\frac{m}{n}-\frac{1}{n}\sum\limits_{k=1}^n p_k\right|<\varepsilon\right\}=1$ 证明：引入随机变量 $X_k=\begin{cases}1,&\text{第}k\text{次试验中}A\text{发生}\\0,&\text{第}k\text{次试验中}A\text{不发生}\end{cases}$ ， $k=1,2,\cdots$ ，显然 $m=X_1+X_2+\cdots+X_n$ ， $P\{X=1\}=p_k$ ， $E(X_k)=p_k$ ， $D(X_k)=p_k(1-p_k)$ 有界。则由定理5（切比雪夫大数定律）有 $\forall\varepsilon>0,\lim\limits_{n\to\infty}P\left\{\left|\frac{1}{n}\sum\limits_{k=1}^n X_k-\frac{1}{n}\sum\limits_{k=1}^n E(X_k)\right|\le\varepsilon\right\}=1$ 将 $m=\sum\limits_{k=1}^n X_k$ ， $E(X_k)=p_k$ 代入得 $\forall\varepsilon>0,\lim\limits_{n\to\infty}P\left\{\left|\frac{m}{n}-\frac{1}{n}\sum\limits_{k=1}^n p_k\right|<\varepsilon\right\}=1$ 证毕。∎

整理

大数定律

设大数定律的内容是 $\forall\varepsilon>0,\lim\limits_{n\to\infty}P\left\{|A-B|<\varepsilon\right\}=1$ 并令 $\overline{X}=\frac{1}{n}\sum\limits_{k=1}^n X_k$ ， $\overline{E(X)}=\frac{1}{n}\sum\limits_{k=1}^n E(X_k)$ 。
那么有下面的表格：

大数定律	条件	$A$	$B$
切比雪夫大数定律	相互独立、 $E(X_k)$ 存在、 $D(X_k)$ 有界	$\overline{X}$	$\overline{E(X)}$
伯努利大数定律	$n$ 次独立重复试验（各 $X_k$ 独立同分布）、事件 $A$ 发生概率为 $p$	$\overline{X}=\frac{n_A}{n}$	$E(X_k)=p$
辛钦大数定律	各 $X_k$ 独立同分布、期望 $E(X_k)=\mu$ 存在	$\overline{X}$	$E(X_k)=\mu$
泊松大数定律	相互独立、事件 $A$ 在第 $k$ 次试验中发生的概率为 $p_k$	$\overline{X}=\frac{m}{n}$	$\overline{E(X)}=\frac{1}{n}\sum\limits_{k=1}^n p_k$

中心极限定理

$Z=\frac{X-\mu}{\sigma}\text{\large\textasciitilde}N(0,1)\implies X\text{\large\textasciitilde}N(\mu,\sigma^2)$ 。做题的时候注意分母是 $\sigma$ ，不是 $\sigma^2$ ！血泪教训！

中心极限定理	条件	结论（当 $n$ 足够大时近似成立）
独立同分布中心极限定理	有有限的数学期望 $E(X_k)=\mu$ 和方差 $D(X_k)=\sigma^2\ne0$	$\overline{X}\text{\large\textasciitilde}N\left(\mu,\frac{\sigma^2}{n}\right),\ \sum\limits_{k=1}^n X_k\text{\large\textasciitilde}N\left(n\mu,n\sigma^2\right)$
棣莫弗-拉普拉斯中心极限定理	$\eta_n\text{\large\textasciitilde}B(n,p)$	$\overline{X}\text{\large\textasciitilde}N\left(p,\frac{p(1-p)}{n}\right),\ \eta_n\text{\large\textasciitilde}N(np,np(1-p))$