概率统计复习笔记（一）极限理论

最新推荐文章于 2021-09-19 17:53:30 发布

上地车神

最新推荐文章于 2021-09-19 17:53:30 发布

阅读量811

点赞数

分类专栏：概率与统计

本文链接：https://blog.csdn.net/weixin_39695712/article/details/107275111

版权

概率与统计专栏收录该内容

1 篇文章 0 订阅

订阅专栏

$\quad$ 极限定理应该算是概率统计中最重要的一个概率工具。很多统计理论都是以极限定理为基础进行推论得到的。

简单说明

$\quad$ 设 $X_1,X_2,\ldots,X_n$ 为一个独立同分布的随机变量序列，公共分布的均值为 $\mu$ ，方差为 $\sigma^2$ 。定义前 $n$ 项和为：
$S_n=X_1+X_2+\cdots+X_n$
那么极限定理就是研究当 $\rightarrow \infty$ 时 $S_n$ 的相关性质。
$\quad$ 由相互独立性可知：
$var(S_n) = var(X_1)+\cdots+var(X_n)=n\sigma^2$
通过上式可以看出当 $\rightarrow \infty$ 时， $S_n$ 是发散的，不存在极限。但是样本均值： $M_n=\frac{X_1+\cdots+X_n}{n}=\frac{S_n}{n}$ 通过简单的计算可以得到 $E[M_n]=\mu,\quad var(M_n)=\frac{\sigma^2}{n}$
所以当 $\rightarrow \infty$ 时， $M_n$ 的方差趋近于 $0$ 。也就是说样本均值收敛于同分布的期望 $\mu$ 。这就是大数定律的内容。
$\quad根据正态分布的性质，我们$ 用 $S_n$ 减去 $n\mu$ ，可以得到零均值随机变量序列 $S_n-n\mu$ ，然后在除以 $S_n$ 的标准差 $\sigma \sqrt{n}$ 得到新的随便变量序列： $Z_n = \frac{S_n-n\mu}{\sigma \sqrt{n}}$ 易证明 $E[Z_n]=0, \quad var(Z_n)=1$ 因此 $Z_n$ 的均值和方差不依赖样本容量 $n$ ，所以它的分布既不发散，也不收敛于一点。而中央极限定理就是研究 $Z_n$ 分布的渐进性质。当 $\rightarrow \infty$ 时， $Z_n$ 的分布就接近标准正态分布。

马尔可夫不等式

$\quad$ 简单的说马尔可夫不等式是指，一个非负随机变量如果均值很小，那么该随机变量取大值得概率也非常小。

马尔可夫不等式
$\quad$ 设随机变量 $X$ 只取非负值，则对任意 $\gt 0$ ，
$\ge a) \le \frac{E[X]}{a}$

$\quad$ 证明：固定正数 $a$ ，定义随机变量 $Y_a$ ，
$Y_n = \begin{cases} 0, &\quad X \lt a, \\ a, &\quad X \ge a. \end{cases}$ 可以看出 $Y_n \le X$ 总成立，从而 $E[Y_a] \le E[X]$ 将上式展开得到 $E[Y_a]=aP(Y_a=a)=aP(X \ge a)$ 所以 $\ge a) \le E[X]$
$\quad$ 马尔可夫不等式的精度比较差。例如： $\sim U[0,4]$ ，易知 $E [X] = 2$ 。由马尔可夫不等式可得： $\ge 2] \le \frac{2}{2} = 1, \quad P[X \ge 3] \le \frac{2}{3} = 0.67, \quad P[X \ge 4] \le \frac{2}{4} = 0.5$ 与真实概率比较 $\ge 2] = 0.5, \quad P[X \ge 3] = 0.25, \quad P[X \ge 4] = 0$
$\quad$ 马尔可夫不等式给出的上界与真实概率相差非常远。需要注意的是这里的随机变量必须是非负值。

切比雪夫不等式

$\quad$ 简单的说切比雪夫不等式就是指如果一个随机变量的方差非常小的话，那么该随机变量取远离均值 $\mu$ 的概率也非常小。那么该随机变量取远离期望 $\mu$ 的概率也非常小。与马尔可夫不等式不同的是切比雪夫不等式并不要求所涉及的随机变量非负。

切比雪夫不等式
$\quad$ 设随机变量 $X$ 的均值为 $\mu$ ，方差为 $\sigma^2$ ，则对任意 $\ge 0,$ $P(|X-\mu| \ge c) \le \frac{\sigma^2}{c^2}$

$\quad$ 证明：考虑非负随机变量 $(X-\mu)^2$ 。令 $a=c^2$ ，使用马尔可夫不等式，可得 $P((X-\mu)^2 \ge c^2) \ge \frac{E[(X-\mu)^2]}{c^2}=\frac{\sigma^2}{c^2}$ 注意事件 $|X-\mu|^2 \ge c^2$ 等价于事件 $|X-\mu| \ge c$ ，所以 $P(|X-\mu| \ge c) = P(|X-\mu|^2 \ge c^2) \ge \frac{\sigma^2}{c^2}$
$\quad$ 令 $k\sigma$ ，其中 $k$ 是正数。切比雪夫不等式的另一个版本是： $P(|X-\mu| \ge k\sigma) \le \frac{\sigma^2}{k^2 \sigma^2} = \frac{1}{k^2}$
上式是另外一个版本的切比雪夫不等式，它表示一个随机变量的取值偏离其期望 $k$ 倍个标准差的概率最多是 $1/k^2$ 。
$\quad$ 切比雪夫不等式比马尔可夫不等式更准确，这是因为它利用了 $X$ 的方差信息。当然一个随机变量的均值和方差也仅仅是粗略地描述了随机变量的性质，所以由切比雪夫不等式提供的上界与精确概率也可能不是非常接近。

弱大数定律

$\quad$ 弱大数定律是指独立同分布的随机变量序列的样本均值，在大样本的情况下，以很大的概率与随机变量的均值非常接近。设 $X_1,X_2,\cdots,$ 公共分布的期望为 $\mu$ ，方差为 $\sigma^2$ 。定义样本均值 $M_n = \frac{1}{n}\Sigma^n_{i=1} X_i$ 则 $E[M_n]=\frac{E[X_1]+\cdots+E[X_n]}{n}=\frac{n\mu}{n}=\mu$ 再运用独立性可得 $var(M_n)=\frac{var(X_1+\cdots+X_n)}{n^2}=\frac{var(X_1)+\cdots+var(X_n)}{n^2}=\frac{n\sigma^2}{n^2}=\frac{\sigma^2}{n}$ 利用切比雪夫不等式可得 $P(|M_n - \mu| \ge \epsilon) \le \frac{\sigma^2}{n \epsilon^2},\quad \epsilon \gt 0$ 对于任意固定的 $\epsilon \gt 0$ ，上面的不等式的右边在 $\rightarrow \infty$ 时趋于 $0$ ，于是就得到如下的弱大数定律。这里要提到的是：当 $X_i$ 的方差无界时，弱大数定律仍然成立，但要更严格的证明。下面陈述的弱大数定律中，只需要一个假设： $E[X_i]$ 是有限的。

弱大数定律
$\quad$ 设 $X_1,X_2,\cdots$ 独立同分布，其公共分布的期望为 $\mu$ ，则对任意的 $\epsilon \gt 0$ ，当 $\rightarrow \infty$ 时， $P(|M_n-\mu| \ge \epsilon) = P\left (\left|\frac{X_1+\cdots+X_n}{n} -\mu \right| \right) \rightarrow 0$

$\quad$ 弱大数定律是指对于充分大的 $n$ ， $M_n$ 的分布的大部分都集中在 $\mu$ 附近。设包含 $\mu$ 的一个区间为 $[\mu-\epsilon, \mu+\epsilon]$ ，则 $M_n$ 位于该区间的概率非常大。当 $\rightarrow \infty$ 时，该概率趋近于 $1$ 。当 $\epsilon$ 非常小时，则需要更大的 $n$ ，使得 $M_n$ 以很大的概率落在该区间内。

依概率收敛

$\quad$ 弱大数定律可以表述为“ $M_n$ 收敛于 $\mu$ ”。但是 $M_1,M_2,\cdots$ 是随机变量序列并不是数列，所以这里的收敛并不同于数列的收敛。两种定义比较如下：

数列的收敛
$\quad$ 设 $a_1,a_2,\cdots$ 是一实数数列， $a$ 为一实数，如果对任意的 $\epsilon \gt 0$ ，存在正整数 $n_0$ ，使得对所有的 $\ge n_0$ 都有 $|a_n-a| \le \epsilon$ 则称数列 $a_n$ 收敛于 $a$ ，记为： $lim_{n \rightarrow \infty} a_n = a$

依概率收敛
$\quad$ 设 $Y_1,Y_2,\cdots$ 是随机变量序列（不必相互独立）， $a$ 为一实数，如果对任意的 $\epsilon \gt 0$ 都有 $lim_{n \rightarrow \infty} \mathbb P(|Y_n-a| \ge \epsilon) = 0$ 则称 $Y_n$ 依概率收敛于 $a$ 。

$\quad$ 根据这个定义，弱大数定律就是说样本均值依概率收敛于真值 $\mu$ 。更一般地，利用切比雪夫不等式可以证明：如果所有的 $Y_n$ 具有相同的期望，而方差 $\mathbf Var(Y_n)$ 趋于 $0$ ，则 $Y_n$ 依概率收敛于 $\mu$ 。
$\quad$ 如果随机变量序列 $Y_1,Y_2,\cdots$ 有分布列或者概率密度函数，且依概率收敛于 $a$ 。则根据依概率收敛的定义，对充分大的 $n,Y_n$ 的分布列或概率密度函数的大部分“质量”集中在 $a$ 的 $\epsilon$ 领域 $[a-\epsilon,a+\epsilon]$ 内。所以依概率收敛的定义也可以这样描述：对任意的 $\epsilon \gt 0$ 和 $\delta \gt 0$ ，存在 $n_0$ ，使得对所有的 $\ge n_0$ ，都有 $\mathbb P(|Y_n-a| \ge \epsilon) \le \delta$ 下面称 $\epsilon$ 为精度， $\delta$ 为置信水平。依概率收敛的定义有如下的形式：任意给定精度和置信水平，在 $n$ 充分大时 $Y_n$ 等于 $a$ 。
$\quad$ 这里需要注意的是 $Y_n$ 依概率收敛于实数 $a$ ，并不能认为 $\mathbb E[Y_n]$ 也同样依概率收敛于实数 $a$ 。

中心极限定理

$\quad$ 根据弱大数定律，样本均值 $M_n=(x_1+\cdots+x_n)/n$ 的分布随着 $n$ 的增大，越来越集中在真值 $\mu$ 的领域内。特别地，在我们的论证中，假定 $X_i$ 的方差为有限的时候，可以证明 $M_n$ 的方差趋于 $0$ 。另一方面，前 $n$ 项和 $S_n=X_1+\cdots+X_n=nM_n$ 的方差趋于 $\infty$ ，所以 $S_n$ 的分布不可能收敛。换一个角度，我们考虑 $S_n$ 与其均值 $n\mu$ 的偏差 $S_n-n\mu$ ，然后乘以正比于 $1/\sqrt{n}$ 的刻度系数。乘以刻度系数的目的就是使新的随机变量具有固定的方差。中心极限定义指出这个新的随机变量的分布趋于标准正态分布。
$\quad$ 具体地说，设 $X_1,X_2,\cdots$ 是独立同分布的随机变量序列，均值为 $\mu$ ，方差为 $\sigma^2$ 。定义 $Z_n=\frac{S_n-n\mu}{\sqrt{n}\sigma}=\frac{X_1+\cdots+X_n-n\mu}{\sqrt{n}\sigma}$ 经过简单技术可以得到 $\mathbb E[Z_n] = \frac{\mathbb E[X_1+\cdots+X_n-n\mu]}{\sqrt{n}\sigma}=0$ $var(Z_n)=\frac{var(X_1+\cdots+X_n)}{n\sigma^2}=\frac{var(X_1)+\cdots+var(X_n)}{n\sigma^2}=\frac{n\sigma^2}{n\sigma^2}=1$

中心极限定义
$\quad$ 设 $X_1,X_2,\cdots$ 是独立同分布的随机变量序列，序列的每一项的均值为 $\mu$ ，方差为 $\sigma^2$ 。记 $Z_n=\frac{X_1+\cdots+X_n-n\mu}{\sqrt{n}\sigma}$ 则 $Z_n$ 的分布函数的极限分布为标准正态分布函数 $\Phi(x) = \frac{1}{\sqrt{2\pi}} \int^x_{\infty}e^{-z^2/2}dz$ 即 $lim_{n \rightarrow \infty} \mathbb P(Z_n \le x) = \Phi(x)\quad 对任意的x成立。$

$\quad$ 中心极限定理是一个非常具有一般性的定理。对于定理的条件，除了序列为独立同分布的序列之外，还假设各项的均值和方差的有限性。此外，对 $X_i$ 的分布再也没有其他的要求。 $X_i$ 的分布可以是离散的、连续的或是混合的。在应用中中心极限定理不必考虑随机变量具体服从什么分布，避免了分布列和概率密度函数的繁琐计算。

基于中心极限定理的近似

$\quad$ 中心极限定理允许人们可以将 $Z_n$ 的分布看成正态分布，从而可以计算与 $Z_n$ 的相关的随机变量的概率问题。因为正态分布的线性变换下仍然是正态分布，所以可以将 $S_n$ 视为均值为 $\mu$ ，方差为 $n\sigma^2$ 的正态随机变量。

基于中心极限定理的正态近似
$\quad$ 令 $S_n=X_1+\cdots+X_n$ ，其中 $X_1,X_2,\cdots$ 是独立同分布的随机变量序列，均值为 $\mu$ ，方差为 $\sigma^2$ 。当 $n$ 充分大时，概率 $\mathbb P(S_n \le c)$ 可以通过将 $S_n$ 视为正太随机变量来近似计算。步骤如下：
$\quad$ (1) 计算 $S_n$ 的均值 $n\mu$ 和方差 $n\sigma^2$ ；
$\quad$ (2) 计算归一化后的值 $(c-n\mu)/(\sqrt{n}\sigma)$ ；
$\quad$ (3) 计算近似值
$\mathbb P(S_n \le c) \approx \Phi(z)$ 其中 $\Phi(z)可以从标准正态分布表查得。$

$\quad$ 当 $\rightarrow \infty$ 时，正态近似就会越精确，但是在实践中，样本容量 $n$ 时固定的、有限的。所以需知道 $n$ 多大时正态近似的结果是可信的。可惜的是，没有简单的准则来判断。这要依赖于 $X_i$ 的分布是否与正态分布接近，还依赖于 $X_i$ 的分布是否对称。如果 $X_i$ 是均匀分布，则 $S_n$ 的分布与正态分布才接近。如果是指数分布，那么 $n$ 必须要充分大， $S_n$ 才与正态分布接近。进一步，使用正态近似计算 $\mathbb P(S_n \le c)$ 的时候，其近似的程度与 $c$ 的值有关。一般来说，如果 $c$ 在 $S_n$ 均值的附近，其精度会更高一些。

二项分布的隶莫佛-拉普拉斯近似(The De Moivre-Laplace Theorem)

$\quad$ 服从参数为 $n$ 和 $p$ 的二项分布的随机变量 $S_n$ 可以看成 $n$ 个服从参数为 $p$ 的伯努利分布的独立随机变量 $X_1,\cdots,X_n$ 的和： $S_n=X_1+\cdots+X_n$ 显然 $\mu=\mathbb E[X_i]=p,\quad \sigma=\sqrt{var(X_i)}=\sqrt{p(1-p)}$
$\quad$ 现在使用中心极限定理去近似事件 $\{ k \le S_n \le l \}$ 的概率，其中 $k$ 和 $l$ 诗给定的整数。实际上，运用事件的等价性 $\le S_n \le l \Longleftrightarrow \frac{k -np}{\sqrt{np(1-p)}} \le \frac{S_n -np}{\sqrt{np(1-p)}} \le \frac{l -np}{\sqrt{np(1-p)}}$ 将事件表达成标准化随机变量的形式。利用中心极限定理可知 $\frac{S_n -np}{\sqrt{np(1-p)}}$ 近似服从标准正态分布，所以 $\mathbb P(k \le S_n \le l) = \mathbb P \left ( \frac{k -np}{\sqrt{np(1-p)}} \le \frac{S_n -np}{\sqrt{np(1-p)}} \le \frac{l -np}{\sqrt{np(1-p)}} \right ) \\ \approx \Phi \left( \frac{l -np}{\sqrt{np(1-p)}} \right) - \Phi \left( \frac{k -np}{\sqrt{np(1-p)}} \right)$
$\quad$ 上述近似方法等价于将 $S_n$ 看成均值为 $n p$ 方差为 $n p (1 - p)$ 的正态分布。如果将 $k, l$ 替换成 $k-\frac{1}{2},l+\frac{1}{2}$ 那么结果会更准备。这个主要是为了防止 $l = k$ 时的状况。

二项分布的隶莫佛-拉普拉斯近似
$\quad$ 设 $S_n$ 是服从参数为 $n$ 和 $p$ 的二项分布， $n$ 充分大， $k$ 和 $l$ 是非负整数，则 $\mathbb P(k \le S_n \le l) \approx \Phi \left( \frac{l + \frac{1}{2} -np}{\sqrt{np(1-p)}} \right) - \Phi \left( \frac{k - \frac{1}{2} -np}{\sqrt{np(1-p)}} \right)$

强大数定律

$\quad$ 强大数定律与弱大数定律一样，都是指样本均值收敛于真值 $\mu$ 。但是，它们强调的是不同的收敛类别。

强大数定律
$\quad$ 设 $X_1,X_2,\cdots$ 是均值为 $\mu$ 的独立同分布随机变量序列，则样本均值 $M_n=(X_1+X_2+\cdots+X_n)/n$ **以概率 $1$ **收敛于 $\mu$ ，即 $\mathbb P \left (lim_{n \rightarrow \infty} \frac{X_1+X_2+\cdots+X_n}{n} = \mu \right) = 1$

$\quad$ 强大数定律与弱大数定律的区别是细微的。弱大数定律是指 $M_n$ 有显著性偏离 $\mu$ 的事件的概率 $\mathbb P(|M_n - \mu| \ge \epsilon)$ 在 $\rightarrow \infty$ 时趋近于 $0$ 。但是对任意有限的 $n$ ，这个概率可以是正的。所以可以想象的是，在 $M_n$ 这个无穷序列中，常常有 $M_n$ 显著偏离 $\mu$ 。弱大数定律不能提供到底有多少会显著性偏离 $\mu$ ，但是强大数定律却可以。根据强大数定律， $M_n$ 以概率 $1$ 收敛于 $\mu$ 。这意味着，对任意的 $\epsilon \gt 0$ ，偏离 $|M_n - \mu|$ 超过 $\epsilon$ 的只能发生有限次。

以概率 $1$ 收敛

$\quad$ 强大数定律中的收敛与弱大数定律中的收敛是两个不同的概念。现在给出以概率 $1$ 收敛的定义。

以概率 $1$ 收敛
$\quad$ 设 $Y_1,Y_2,\cdots$ 是某种概率模型下的随机变量序列（不必独立）， $c$ 是某个实数，如果 $\mathbb P(lim_{n \rightarrow \infty} Y_n = c) = 1$ 则称 $Y_n$ 以概率 $1$ （或几乎处处）收敛于 $c$ 。

$\quad$ 这种收敛也是在由无穷数列组成的样本空间中建立的：若某随机变量序列以概率 $1$ 收敛于常数 $c$ ，则在样本空间中，全部的概率集中在满足极限等于 $c$ 的无穷数列的子集上。但是这并不意味其他的无穷数列是不可能的，只是它们是非常不可能的，即它们的概率为 $0$ 。

上地车神

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
概率统计复习笔记（一）极限理论

\quad极限定理应该算是概率统计中最重要的一个概率工具。很多统计理论都是以极限定理为基础进行推论得到的。简单说明\quad设 X1,X2,…,XnX_1,X_2,\ldots,X_nX1,X2,…,Xn为一个独立同分布的随机变量序列，公共分布的均值为μ\muμ，方差为σ2\sigma^2σ2。定义前nnn项和为：Sn=X1+X2+⋯+XnS_n=X_1+X_2+\cdots+X_nSn=X1+X2+⋯+Xn那么极限定理就是研究当n→∞n \rightarrow \inftyn→∞时S
复制链接

扫一扫