大数定律&中心极限定理

沉住气CD

已于 2023-12-30 22:16:34 修改

阅读量985

点赞数 18

分类专栏：统计学文章标签：概率论机器学习人工智能数据挖掘算法

于 2023-12-30 22:15:31 首次发布

本文链接：https://blog.csdn.net/pydarren/article/details/135179623

版权

统计学专栏收录该内容

12 篇文章 0 订阅

订阅专栏

1.切比雪夫不等式

切比雪夫不等式可以对随机变量偏离期望值的概率做出估计，这是大数定律的推理基础。以下介绍一个对切比雪夫不等式的直观证明。

1.1 示性函数

对于随机事件A，我们引入一个示性函数 $I_A=\begin{cases} 1&,\text{A发生} \\ 0&,\text{A不发生} \end{cases}$ ，即一次实验中，若 $A$ 发生了，则 $I$ 的值为1，否则为0。

现在思考一个问题：这个函数的自变量是什么？

我们知道，随机事件在做一次试验后有一个确定的观察结果，称这个观察结果为样本点 $\omega$ ，所有可能的样本点的集合称为样本空间$\Omega =\left { \omega \right } $，称$ \Omega $的一个子集$ A$为随机事件。

例如，掷一个六面骰子，记得到数字 $k$ 的样本点为 $\omega_k$ ，则 $\Omega = \{\omega_1,\omega_2,\omega_3,\omega_4,\omega_5,\omega_6\}$ ，随机事件“得到的数字为偶数”为 $\{\omega_2,\omega_4,\omega_6\}$ 。

由此可知，示性函数是关于样本点的函数，即
$I_A(\omega)=\begin{cases} 1&,\omega \in A \\ 0&,\omega \notin A \end{cases} \text {(试验后)}$

在试验之前，我们能获得哪个样本点也是未知的，因此样本点也是个随机事件，记为 $\xi$ ，相应的示性函数可以记为
$I_A=\begin{cases} 1&,\xi \in A \\ 0&,\xi \notin A \end{cases} \text {(试验前)}$

在试验之前， $I$ 的值也是未知的，因此 $I$ 是个二值随机变量。这样，我们就建立了随机事件 $A$ 和随机变量 $I$ 之间的一一对应关系。

对 $I$ 求数学期望可得
$\mathbb{E}I_A=1 \times P(\xi \in A) + 0 \times P(\xi \notin A)=P(\xi \in A)$

$P(\xi \in A)$ 是什么？是样本点落在 $A$ 里面的概率，也就是 $A$ 事件发生的概率 $P (A)$ ，由此我们就得到了示性函数很重要的性质：其期望值正是对应的随机事件的概率，即
$\mathbb{E}I_A=P(A)$

1.2 马尔科夫不等式

对于非负的随机变量 $X$ 和定值 $a$ ，考虑随机事件 $A=\{X \ge a\}$ ，我们可以画出示性函数 $I_A$ 关于观察值 $x$ 的图像，如图所示：
在这里插入图片描述

容易发现 $I_{X \ge a}(x) \le \frac{x}{a}$ 恒成立。把 $x$ 换为随机变量 $X$ ，再对该式取数学期望得
$\mathbb{E}I_{X \ge a}=P(X \ge a) \le \frac{\mathbb{E}X}{a}$
称该不等式为马尔科夫Markov不等式，

从理解上说，如果非负随机变量 $X$ 的期望存在，则 $X$ 超过某个定值 $a$ 的概率不超过 $\frac{\mathbb{E}}{a}$ 。举个简单的例子：如果我们知道所有人收入的平均数 $a$ ，那么随机抽一个人收入超过 $10 a$ 的概率不超过 $10\%$ 。

根据图中两个函数的差距，我们大致能理解这个不等式对概率的估计时比较粗超的。

1.3 切比雪夫不等式

对于随机变量 $X$ ，记 $\mu = \mathbb{E}X$ ，考虑随机事件 $A=\{|X-\mu|\ge a\}$ ，其示性函数的图像如图所示：
在这里插入图片描述

易知 $I_{|X-\mu|\ge a}\le \frac{{(x-\mu)}^2}{a^2}$ 恒成立。将该式 $x$ 换成 $X$ 并取数学期望得
$\mathbb{E}I_{|X-\mu|\ge a}=P(|X-\mu|\ge a)\le \frac{\mathbb{D}X}{a^2}$
称上面这个不等式为切比雪夫Chebyshev不等式。

从理解上来说，如果随机变量 $X$ 的期望和方差存在，则 $X$ 和期望值的距离大于 $a$ 的概率不超过 $\frac{\mathbb{D}X}{a^2}$ ，给定的范围越大（ $a$ 越大），或 $X$ 的方差越小，则偏离的概率越小，这和直觉是相符的。

同样的，切比雪夫不等式对概率的估计也比较粗糙。

2. 大数定律

对于一系列随机变量 ${X_n\}$ ，设每个随机变量都有期望。由于随机变量之和 $\sum_{i=1}^{n}X_i$ 很有可能发散到无穷大，我们转而考虑随机变量的均值 ${\bar{X}_n}=\frac{1}{n}\sum_{i=1}^{n}X_i$ 和其期望 $\mathbb{E}({\bar{X}_n})$ 之间的距离。若 ${X_n\}$ 满足一定条件，当 $n$ 足够大时，这个距离会以非常大的概率接近0，这就是大数定律的主要思想。

定义：
任取 $\varepsilon >0$ ，若恒有 $\lim_{n \to \infty} P(\left | \bar{X}_n-\mathbb{E}\bar{X}_n \right | < \varepsilon )=1$ ，称 ${X_n\}$ 服从（弱）大数定律，称 $\bar{X}_n$ 依概率收敛于 $\mathbb{E}({\bar{X}_n})$ ，记作
$\bar{X}_n\overset{P}{\longrightarrow} \mathbb{E}({\bar{X}_n})$

2.1 马尔可夫大数定律

任取 $\varepsilon >0$ ，由切比雪夫不等式可知
$P(\left | \bar{X}_n-\mathbb{E}\bar{X}_n \right | < \varepsilon )\ge 1-\frac{\mathbb{D}({\bar{X}_n})}{{\varepsilon}^2}$
$=1-\frac{1}{{\varepsilon}^2n^2}\mathbb{D}(\sum_{i=1}^{n}X_i)$
由此得到马尔可夫大数定律:
如果 $\lim_{n \to \infty}\frac{1}{n^2}\mathbb{D}(\sum_{i=1}^{n}X_i)=0$ ，则 ${X_n\}$ 服从大数定律。

2.2 切比雪夫大数定律

在马尔可夫大数定律的基础上，如果 ${X_n\}$ 两两不相关，则方差可以拆开：
$\frac{1}{n^2}\mathbb{D}(\sum_{i=1}^{n}X_i)=\frac{1}{n^2}\sum_{i=1}^{n}\mathbb{D}X_i$
如果 $\mathbb{D}X_i$ 有共同的上界c，则
$\frac{1}{n^2}\mathbb{D}(\sum_{i=1}^{n}X_i)\le \frac{nc}{n^2}=\frac{c}{n}$
$P(\left | \bar{X}_n-\mathbb{E}\bar{X}_n \right | < \varepsilon )\ge 1-\frac{c}{{\varepsilon}^2n}$
由此得到切比雪夫大数定律：
如果 ${X_n\}$ 两两不相关，且方差有共同的上界，则 ${X_n\}$ 两两不相关服从大数定律。

3. 中心极限定理

大数定律研究的是一系列随机变量 ${X_n\}$ 的均值 ${\bar{X}_n}=\frac{1}{n}\sum_{i=1}^{n}X_i$ 是否会依概率收敛于其期望 $\mathbb{E}({\bar{X}_n})$ 这个数值，而中心极限定理进一步研究 ${\bar{X}_n}$ 服从什么分布。若 ${X_n\}$ 满足一定的条件，当 $n$ 足够大时， ${\bar{X}_n}$ 服从正态分布，这就是中心极限定理的主要思想，这也体现了正态分布的重要性和普遍性。

3.1 独立同分布中心极限定理（林德贝格-勒维）

如果 ${X_n\}$ 独立同分布，且 $\mathbb{E}X=\mu$ ， $\mathbb{D}X={\sigma}^2>0$ ，则 $n$ 足够大时 ${\bar{X}_n}$ 近似服从正态分布 $N(\mu, \frac{{\sigma}^2}{n})$ ，即
$\lim_{x \to \infty} P(\frac{{\bar X}_n-\mu}{\sigma / \sqrt{n}}<a)=\Phi (a)=\int_{-\infty}^{a}\frac{1}{\sqrt{2\pi}}e^{-t^2/2}dt$