漫步数理统计三十二——中心极限定理

最新推荐文章于 2019-03-05 10:11:26 发布

会敲键盘的猩猩

最新推荐文章于 2019-03-05 10:11:26 发布

阅读量2.4k

点赞数 2

分类专栏：漫步数理统计文章标签：中心极限定理

漫步数理统计专栏收录该内容

34 篇文章

订阅专栏

如果 $X_1,X_2,\ldots,X_n$ 是均值为 $\mu$ ，方差为 $\sigma^2$ 正态分布的随机样本，那么对任意正整数 $n$ ，随机变量

\sum n 1 X i - n μ σ n ‾ ‾ \sqrt = n ‾ ‾ \sqrt ( X ¯ n - μ ) σ

$\frac{\sum_{1}^nX_i-n\mu}{\sigma\sqrt{n}}=\frac{\sqrt{n}(\bar{X}_n-\mu)}{\sigma}$

满足均值为零方差为1的正态分布。在概率论中有个非常优雅的定理叫中心极限定理，这个定理的特殊情况指出了一个重要的事实：如果 $X_1,X_2,\ldots,X_n$ 为任意有限方差 $\sigma^2>0$ (因此均值也是有限的)分布的大小为 $n$ 的随机样本，那么随机变量 $\sqrt{n}(\bar{X}-\mu)/\sigma$ 依分布收敛到标准正态分布，只要定理的条件满足，对于大的 $n$ 随机变量 $\sqrt{n}(\bar{X}-\mu)/\sigma$ 近似为均值为0方差为1的正态分布。这样的话我们可以用这个近似正态分布来计算与 $\bar{X}$ 相关的概率，在统计问题中 $\mu$ 是未知的，我们将用这个 $\bar{X}$ 的近似分布建立 $\mu$ 的近似置信区间。

$\textbf{定理1：}$ $X_1,X_2,\ldots,X_n$ 表示均值为 $\mu$ 方差为 $\sigma^2$ 分布的随机样本观测值，那么随机变量 $Y_n=(\sum_1^nX_i-n\mu)/\sqrt{n}\sigma=\sqrt{n}(\bar{X}-\mu)/\sigma$ 依分布收敛到满足均值为0方差为1正态分布的随机变量。

$\textbf{证明：}$ 我们额外假设 $-h<t<h$ 时，mgf $M(t)=E(e^{tX})$ 存在，如果用特征函数代替mgf即 $\varphi(t)=E(e^{itX})$ ，那么它总是存在的。

当 $-h<t<h$ 时，函数

m (t) = E [e t (X - μ)] = e - μ t M (t)

$m(t)=E[e^{t(X-\mu)}]=e^{-\mu t}M(t)$

也存在。因为 $m(t)$ 是 $X-\mu$ 的mgf，所以 $m(0)=1,m^\prime(0)=E(X-\mu)=0,m^{''}(0)=E[(X-\mu)^2]=\sigma^2$ ，根据泰勒公式存在 $0<\xi<t$ 使得

m (t) = m (0) + m' (0) t + m ″ ( ξ ) t 2 2 = 1 + m ″ ( ξ ) t 2 2

$\begin{align*} m(t) &=m(0)+m^\prime(0)t+\frac{m^{''}(\xi)t^2}{2}\\ &=1+\frac{m^{''}(\xi)t^2}{2} \end{align*}$

我们加上在减去 $\sigma^2t^2/2$ ，得到

m (t) = 1 + σ 2 t 2 2 + [ m ″ ( ξ ) - σ 2 ] t 2 2 (1)

$\begin{equation} m(t)=1+\frac{\sigma^2t^2}{2}+\frac{[m^{''}(\xi)-\sigma^2]t^2}{2}\tag1 \end{equation}$

接下来考虑 $M(t;n)$ ，其中

M (t; n) = E [exp (t \sum X i - n μ σ n ‾ ‾ \sqrt)] = E [exp (t X 1 - μ σ n ‾ ‾ \sqrt) exp (t X 2 - μ σ n ‾ ‾ \sqrt) \dots exp (t X n - μ σ n ‾ ‾ \sqrt)] = E [exp (t X 1 - μ σ n ‾ ‾ \sqrt)] \dots E [exp (t X n - μ σ n ‾ ‾ \sqrt)] = {E [exp (t X - μ σ n ‾ ‾ \sqrt)]} n = [n (t σ n ‾ ‾ \sqrt)] n, - h < t σ n ‾ ‾ \sqrt < h

$\begin{align*} M(t;n) &=E\left[\exp\left(t\frac{\sum X_i-n\mu}{\sigma\sqrt{n}}\right)\right]\\ &=E\left[\exp\left(t\frac{X_1-\mu}{\sigma\sqrt{n}}\right)\exp\left(t\frac{X_2-\mu}{\sigma\sqrt{n}}\right)\cdots\exp\left(t\frac{X_n-\mu}{\sigma\sqrt{n}}\right)\right]\\ &=E\left[\exp\left(t\frac{X_1-\mu}{\sigma\sqrt{n}}\right)\right]\cdots E\left[\exp\left(t\frac{X_n-\mu}{\sigma\sqrt{n}}\right)\right]\\ &=\left\{E\left[\exp\left(t\frac{X-\mu}{\sigma\sqrt{n}}\right)\right]\right\}^n\\ &=\left[n\left(\frac{t}{\sigma\sqrt{n}}\right)\right]^n,-h<\frac{t}{\sigma\sqrt{n}}<h \end{align*}$

在 $(1)$ 中用 $t/\sigma\sqrt{n}$ 替换 $t$ 可得

m (t σ n ‾ ‾ \sqrt) = 1 + t 2 2 n + [ m ″ ( ξ ) - σ 2 ] t 2 2 n σ 2

$m\left(\frac{t}{\sigma\sqrt{n}}\right)=1+\frac{t^2}{2n}+\frac{[m^{''}(\xi)-\sigma^2]t^2}{2n\sigma^2}$

其中 $\xi$ 位于 $0,t/\sigma\sqrt{n}$ 之间，所以

M (t; n) = {1 + t 2 2 n + [ m ″ ( ξ ) - σ 2 ] t 2 2 n σ 2} n

$M(t;n)=\left\{1+\frac{t^2}{2n}+\frac{[m^{''}(\xi)-\sigma^2]t^2}{2n\sigma^2}\right\}^n$

因为 $m^{''}(t)$ 在 $t=0$ 处连续，且 $n\to\infty$ 时 $\xi\to 0$ ，所以我们有

lim n \to \infty [m ″ (ξ) - σ 2] = 0

$\lim_{n\to\infty}[m^{''}(\xi)-\sigma^2]=0$

根据极限的性质可得

lim n \to \infty M (t; n) = e t 2 / 2

$\lim_{n\to\infty}M(t;n)=e^{t^2/2}$

这就证明了随机变量 $Y_n=\sqrt{n}(\bar{X}_n-\mu)/\sigma$ 有极限标准正态分布。 $||$

我们可以这么解释上面的定理，当 $n$ 是一个较大且固定的整数时，随机变量 $\bar{X}$ 近似为均值为 $\mu$ 方差为 $\sigma^2/n$ 的正态分布；在实际中我们用这个正态pdf近似实际的pdf。

$\textbf{例1：}$ $\bar{X}$ 表示pdf为

f (x) = {10 0 < x < 1 e l s e w h e r e

$f(x)= \begin{cases} 1&0<x<1\\ 0&elsewhere \end{cases}$

分布中随机得到75个样本的均值，那么要想计算 $P(0.45<\bar{X}<0.55)$ 这样的概率就很复杂。因为 $M(t)$ 对所有的 $t$ 实值存在，所以定理的条件满足，进一步 $\mu=\frac{1}{2},\sigma^2=\frac{1}{12}$ ，所以我们可以近似

P (0.45 < X ¯ < 0.55) = P [n ‾ ‾ \sqrt ( 0.45 - μ ) σ < n ‾ ‾ \sqrt ( X ¯ - μ ) σ < n ‾ ‾ \sqrt ( 0.55 - μ ) σ] = P [- 1.5 < 30 (X ¯ - 0.5) < 1.5] = 0.866

$\begin{align*} P(0.45<\bar{X}<0.55) &=P\left[\frac{\sqrt{n}(0.45-\mu)}{\sigma}<\frac{\sqrt{n}(\bar{X}-\mu)}{\sigma}<\frac{\sqrt{n}(0.55-\mu)}{\sigma}\right]\\ &=P[-1.5<30(\bar{X}-0.5)<1.5]\\ &=0.866 \end{align*}$

$\textbf{例2：}$ $X_1,X_2,\ldots,X_n$ 表示从分布 $b(1,p)$ 中得到的随机样本，这里 $\mu=p,\sigma^2=p(1-p)$ ，且对 $t$ 的所有实值 $M(t)$ 存在。如果 $Y_n=X_1+\cdots+X_n$ ，我们知道 $Y_n$ 满足 $b(n,p)$ 。我们可以利用事实 $(Y_n-np)/\sqrt{np(1-p)}=\sqrt{n}(\bar{X}-p)/\sqrt{p(1-p)}=\sqrt{n}(\bar{X}-\mu)/\sigma$ 的极限分布为均值0方差1的正态分布，很容易的计算出 $Y_n$ 的概率。一般来说统计量 $Y_n$ 近似为均值 $np$ 方差 $np(1-p)$ 的正态分布，即便 $n$ 比较小如10， $p=\frac{1}{2}$ 使得二项分布关于 $np=5$ 对称，如图1所示。 $N(5,\frac{5}{2})$ 拟合二项分布 $b(10,\frac{1}{2})$ 其中矩形的高度表示整数 $0,1,2,\ldots,10$ 的概率，底为 $(k-0.5,k+0.5)$ 的矩形面积与 $k-0.5,k+0.5$ 之间正态pdf下面的面积近似想等，这个实例有助于我们理解例3。

$\textbf{例3：}$ 考虑例2， $n=100,p=\frac{1}{2}$ 并假设我们相计算 $P(Y=48,49,50,51,52)$ 的概率，因为 $Y$ 是离散随机变量，所以 $\{Y=48,49,50,51,52\},\{47.5<Y<52.5\}$ 是等价的事件，即 $P(Y=48,49,50,51,52)=P(47.5<Y<52.5)$ 。因为 $np=50,np(1-p)=25$ ，后者的概率可以写成

P (47.5 < Y < 52.5) = P (47.5 - 50 5 < Y - 50 5 < 52.5 - 50 5) = P (- 0.5 < Y - 50 5 < 0.5)

$\begin{align*} P(47.5<Y<52.5) &=P\left(\frac{47.5-50}{5}<\frac{Y-50}{5}<\frac{52.5-50}{5}\right)\\ &=P\left(-0.5<\frac{Y-50}{5}<0.5\right) \end{align*}$

因为 $(Y-50)/5$ 近似满足均值为0方差为1的正态分布，所以查表即可得出答案。

图1

选择 $47.5<Y<52.5$ 而不是 $47.8<Y<52.3$ 作为事件 $Y=48,49,50,51,52$ 的等价事件是因为： $P(Y=48,49,50,51,52)$ 的概率可以解释成矩形面积的和，而矩形的高度分别为 $P(Y=48),\ldots,P(Y=52)$ ，如果这些矩形底的中点分别对应 $48,49,\ldots,52$ ，那么对于由横坐标，正态pdf以及两个坐标限定区域构成的近似和，我们取坐标点为47.5，52.5也是比较合理的，这称为连续性矫正。

我们知道当 $n$ 足够大时 $\bar{X},\sum_1^n X_i$ 近似满足正态分布，随后我们会发现一些其它近似为正态分布的统计量，这也是为何正态分布为如此重要，虽然许多统计分布不是正态的，但是来自这些统计的随机样本统计量分布一般非常靠近正态分布。

许多情况下，我们对近似满足正态分布统计量的函数感兴趣，考虑例2的随机变量序列 $Y_n$ ，近似满足 $N[np,np(1-p)]$ ， $np(1-p)$ 是 $p$ 的函数也即是 $Y_n$ 的方差，所以如果 $p$ 未知，我们相估计 $Y_n$ ，因为 $E(Y_n/n)=p$ ，所以我们可以用 $n(Y_n/n)(1-Y_n/n)$ 作为估计量。特别的它也近似满足正态分布吗？如果是的话均值与方差是多少？为了回答这个问题，需要使用 $\Delta$ 方法。

为了说明 $\Delta$ 方法，考虑样本均值的函数，我们知道 $\bar{X}$ 依概率收敛到 $\mu$ 且 $\bar{X}$ 近似为 $N(\mu,\sigma^2/n)$ ，假设我们对 $\bar{X}_n$ 的函数感兴趣， $u(\bar{X}_n)$ ，其中 $u$ 在 $\mu$ 处可导且 $u^\prime(\mu)\neq 0$ ，那么 $u(\bar{X})$ 近似满足 $N\{u(\mu),[u^\prime(\mu)]^2\sigma^2/n\}$ ，正式点说就是

u ( X n ¯ ) - u ( μ ) [ u ' ( μ ) ] 2 σ 2 / n ‾ ‾ ‾ ‾ ‾ ‾ ‾ ‾ ‾ ‾ ‾ ‾ \sqrt

$\frac{u(\bar{X_n})-u(\mu)}{\sqrt{[u^\prime(\mu)]^2\sigma^2/n}}$

满足极限标准正态分布。

$\textbf{例4：}$ $Y_n$ (或者简单写为 $Y$ )满足 $b(n,p)$ ，那么 $Y/n$ 近似满足 $N[p,p(1-p)]$ 。统计学家经常要寻找方差不依赖参数的统计量函数，这里 $Y/n$ 的方差依赖于 $p$ ，那么我们能找到函数 $u(Y/n)$ 使得其方差与 $p$ 无关吗？因为 $Y/n$ 依概率收敛到 $p$ ，所以我们可以用一阶泰勒公式近似 $u(Y/n)$