几种大数定律介绍

最新推荐文章于 2025-04-17 21:32:47 发布

积跬步以至千里。

最新推荐文章于 2025-04-17 21:32:47 发布

阅读量5.6k

点赞数 5

分类专栏：概率论与数理统计文章标签：概率论机器学习统计学

本文链接：https://blog.csdn.net/SpiritedAway1106/article/details/107537059

版权

概率论与数理统计专栏收录该内容

14 篇文章

订阅专栏

文章目录

1. 切比雪夫不等式

定理

设随机变量 $X$ 具有数学期望 $E(X)=\mu$ ，方差 $D(X)=\sigma^2$ ，则对于任意正数 $\epsilon$ ,不等式 $P\{|X-\mu|\geq\epsilon\}\leq \frac{\sigma^2}{\epsilon^2}$

成立，这一不等式称为切比雪夫(Chebyshev)不等式 . 该不等式也可写作 $P\{|X-\mu|<\epsilon\}\geq 1-\frac{\sigma^2}{\epsilon^2}$

证明

对于离散型有

$\begin{aligned} P\{|X-\mu|\geq\epsilon\} &= \sum\limits_{k=\mu-\epsilon}^{k=\mu+\epsilon}p_k \leq \sum\limits_{k=\mu-\epsilon}^{k=\mu+\epsilon}p_k\frac{(k-\mu)^2}{\epsilon^2} \quad (\because |X-\mu|\geq\epsilon \quad \therefore\frac{(k-\mu)^2}{\epsilon^2} \geq 1) \\ &\leq \frac{1}{\epsilon^2}\sum\limits_{k=0}^{+\infty}p_k(k-\mu)^2 \quad (级数p_i(k-\mu)^2\geq0 ，因此扩大其累加范围，其结果必然不减)\\&=\frac{D(X)}{\epsilon^2} = \frac{\sigma^2}{\epsilon^2} \end{aligned}$
对于连续型有

$\begin{aligned} P\{|X-\mu|\geq\epsilon\} &= \int\limits_{|x-\mu|\geq\epsilon}f(x) \leq \int\limits_{|x-\mu|\geq\epsilon}f(x)\frac{(x-\mu)^2}{\epsilon^2} \quad (\because |x-\mu|\geq\epsilon \quad \therefore\frac{(x-\mu)^2}{\epsilon^2} \geq 1) \\ &\leq \frac{1}{\epsilon^2}\int\nolimits_{-\infty}^{+\infty}f(x)(x-\mu)^2 \quad (被积函数f(x)(x-\mu)^2\geq0 ，因此扩大其积分范围，其结果必然不减)\\&=\frac{D(X)}{\epsilon^2} = \frac{\sigma^2}{\epsilon^2} \end{aligned}$
理解

首先 $P\{|X-\mu|\geq\epsilon\}$ ,表示随便变量 $X$ ，落在以数学期望 $\mu$ 为中心， $\epsilon$ 范围以外的概率，用数轴简单表示如下

切比雪夫不等式

切比雪夫不等式描述了随机变量取值落在图中阴影部分的概率值上限为 $\frac{D(X)}{\epsilon^2}$ ，其中 $D (X)$ 为方差，表示随机变量偏离期望的程度

当 $\epsilon$ 固定，方差越小，说明随机变量取值越多的集中在期望附近，则落在阴影区域 $|X-\mu|\geq\epsilon$ 内的概率就会变小，对应到切比雪夫不等式，表现为概率上限 $\frac{D(X)}{\epsilon^2}$ 变小。反之方差越大，随机变量偏离期望的程度越大，则落在阴影区域内的概率就会增大，对应到对应到切比雪夫不等式，表现为概率上限 $\frac{D(X)}{\epsilon^2}$ 变大
当方差 $D (X)$ 固定， $\epsilon$ 越小，则说明阴影区域越靠近期望 $E (X)$ ，如图中的 $\epsilon_2$ ，很明显以 $\epsilon_2$ 为范围的阴影区域，要大于以 $\epsilon_1$ 为范围的阴影区域，此时对应到切比雪夫不等式，表现为概率上限 $\frac{D(X)}{\epsilon^2}$ 变大
意义

切比雪夫不等式给出了随机变量的分布未知，只知道期数学期望和方差的情况下， $P\{|X-\mu|\geq\epsilon\}$ 的概率界限。根据切比雪夫不等式 $P\{|X-\mu|<\epsilon\}\geq 1-\frac{\sigma^2}{\epsilon^2}$
- 当 $\epsilon=2\sigma$ 时， $P\{|X-\mu|<\epsilon\}\geq 1-\frac{\sigma^2}{\epsilon^2}=0.75$
- 当 $\epsilon=3\sigma$ 时， $P\{|X-\mu|<\epsilon\}\geq 1-\frac{\sigma^2}{\epsilon^2}=0.8889$
- 当 $\epsilon=4\sigma$ 时， $P\{|X-\mu|<\epsilon\}\geq 1-\frac{\sigma^2}{\epsilon^2}=0.9375$
- 当 $\epsilon=5\sigma$ 时， $P\{|X-\mu|<\epsilon\}\geq 1-\frac{\sigma^2}{\epsilon^2}=0.96$

2. 依概率收敛

定义

设 $X_1,X_2,X_3,\cdots,X_n,\cdots$ 是一个随机变量序列， $a$ 是一个常数，若对于任意正数 $\epsilon$ 有 $\lim\limits_{n\to+\infty}P\bigg\{\bigg|X_n-a\bigg|<\epsilon\bigg\}=1$ 则称序列 $X_1,X_2,X_3,\cdots,X_n,\cdots$ 依概率收敛于 $\pmb{a}$ ,记做 $X_n \stackrel{P}{\to} a.$
理解

我们知道，事件发生的概率为 $1$ ，并不代表该事件为必然事件。所以这里的依概率收敛，可以按这个思路来理解，整体是向 $a$ 逼近，但是可能出现个别的离散点偏离 $a$ 较远，但是不影响大趋势。这也是区别于收敛的地方，收敛要求满足特定条件后，所有点均逼近 $a$ .

3. 切比雪夫大数定理

定理内容

设 $X_1,X_2,X_3,\cdots$ 是两两互不相关的随机变量序列，数学期望 $E(X_i)$ 和方差 $D(X_i)$ 都存在 $(i=1,2,3,\cdots)$ ，且存在常数 $,(0\leq C < +\infty)$ ，使得 $D(X)\leq C$ ，则对于任意的 $\epsilon>0$ 有 $\lim\limits_{n\to+\infty}P\bigg\{\bigg|\frac{1}{n}\sum\limits_{i=1}^{n}X_i-\frac{1}{n}\sum\limits_{i=1}^{n}E(X_i)\bigg|<\epsilon\bigg\}=1$

证明

$\begin{aligned} &E(\frac{1}{n}\sum\limits_{i=1}^{n}X_i)= \frac{1}{n}\sum\limits_{i=1}^{n}E(X_i)\end{aligned}$

因为 $X_1,X_2,X_3,\cdots$ 相互独立，因此有

$\begin{aligned} D(\frac{1}{n}\sum\limits_{i=1}^{n}X_i) = \frac{1}{n^2}\sum\limits_{i=1}^{n}D(X_i)\leq\frac{1}{n^2}nC=\frac{C}{n}\end{aligned}$

根据切比雪夫不等式可知

$\begin{aligned} P\bigg\{\bigg|\frac{1}{n}\sum\limits_{i=1}^{n}X_i-\frac{1}{n}\sum\limits_{i=1}^{n}E(X_i)\bigg|<\epsilon\bigg\} &\geq 1- \frac{\frac{1}{n^2}\sum\limits_{i=1}^{n}D(X_i)}{\epsilon^2} \geq1- \frac{C}{n\epsilon^2}\\\therefore \quad \end{aligned}$

当 $n\to+\infty$ 时 $\frac{C}{n\epsilon^2} \to1$ ,且根据概率定义，必然有 $P\bigg\{\bigg|\frac{1}{n}\sum\limits_{i=1}^{n}X_i-\frac{1}{n}\sum\limits_{i=1}^{n}E(X_i)\bigg|<\epsilon\bigg\} \leq 1$ 成立.

$\therefore \quad \lim\limits_{n\to+\infty}P\bigg\{\bigg|\frac{1}{n}\sum\limits_{i=1}^{n}X_i-\frac{1}{n}\sum\limits_{i=1}^{n}E(X_i)\bigg|<\epsilon\bigg\}=1$
推论

设 $X_1,X_2,X_3,\cdots$ 是独立同分布的随机变量序列，数学期望 $E(X_i)=\mu$ 和方差 $D(X_i)=\sigma^2$ 都存在 $(i=1,2,3,\cdots)$ ，则对于任意的 $\epsilon>0$ 有 $\lim\limits_{n\to+\infty}P\bigg\{\bigg|\frac{1}{n}\sum\limits_{i=1}^{n}X_i-\mu\bigg|<\epsilon\bigg\}=1$

4. 弱大数定理(辛钦大数定理)

定义

设 $X_1,X_2,\cdots$ 是独立同分布的随机变量序列，且具有数学期望 $E(X_k)=\mu \quad(k=1,2,\cdots).$ 作前 $n$ 个变量的算术平均 $\frac{1}{n}\sum\limits_{k=1}^{n}X_k$ ，则对于任意 $\epsilon>0$ ，有 $\lim\limits_{n\to+\infty}P\bigg\{\bigg|\frac{1}{n}\sum\limits_{k=1}^{n}X_k-\mu\bigg|<\epsilon\bigg\}=1$

相比切比雪夫不等式，辛钦大数定理没有要求随机变量的方差存在。如果随机变量方差存在，则利用切比雪夫不等式很容易证得，至于方差不存在时，暂不会证明。

5. 伯努利大数定理

定义

设 $f_A$ 是 $n$ 次独立重复试验中事件 $A$ 发生的次数， $p$ 是事件 $A$ 在每次试验中发生的概率，则对于任意正数 $\epsilon>0$ ，有 $\lim\limits_{n\to+\infty}P\bigg\{\bigg|\frac{f_A}{n}-p\bigg|<\epsilon\bigg\}=1.$

或 $\lim\limits_{n\to+\infty}P\bigg\{\bigg|\frac{f_A}{n}-p\bigg|\geq\epsilon\bigg\}=0$

分析

设 $\begin{cases}X_k=1,第k次试验，A发生\\X_k=0,第k次试验，A不发生 \end{cases}$

则 $f_A=\sum\limits_{k=1}^{n}X_k \quad \to \frac{f_A}{n}=\frac{1}{n}\sum\limits_{k=1}^{n}X_k$

对于 $n$ 重伯努利试验，有数学期望 $E(X_k)=p$

由辛钦大数定理可知有 $\lim\limits_{n\to+\infty}P\bigg\{\bigg|\frac{1}{n}\sum\limits_{k=1}^{n}X_k-\mu\bigg|<\epsilon\bigg\}=1$

即

$\lim\limits_{n\to+\infty}P\bigg\{\bigg|\frac{f_A}{n}-p\bigg|<\epsilon\bigg\}=1.$

该定理表明，当试验次数 $n$ 足够大时，可以用事件发生的频率代替事件的概率