漫步数理统计三十二——中心极限定理

如果 X1,X2,,Xn 是均值为 μ ,方差为 σ2 正态分布的随机样本,那么对任意正整数 n ,随机变量

n1Xinμσn=n(X¯nμ)σ

满足均值为零方差为1的正态分布。在概率论中有个非常优雅的定理叫中心极限定理,这个定理的特殊情况指出了一个重要的事实:如果 X1,X2,,Xn 为任意有限方差 σ2>0 (因此均值也是有限的)分布的大小为 n 的随机样本,那么随机变量n(X¯μ)/σ依分布收敛到标准正态分布,只要定理的条件满足,对于大的 n 随机变量n(X¯μ)/σ近似为均值为0方差为1的正态分布。这样的话我们可以用这个近似正态分布来计算与 X¯ 相关的概率,在统计问题中 μ 是未知的,我们将用这个 X¯ 的近似分布建立 μ 的近似置信区间。

1 X1,X2,,Xn 表示均值为 μ 方差为 σ2 分布的随机样本观测值,那么随机变量 Yn=(n1Xinμ)/nσ=n(X¯μ)/σ 依分布收敛到满足均值为0方差为1正态分布的随机变量。

我们额外假设 h<t<h 时,mgf M(t)=E(etX) 存在,如果用特征函数代替mgf即 φ(t)=E(eitX) ,那么它总是存在的。

h<t<h 时,函数

m(t)=E[et(Xμ)]=eμtM(t)

也存在。因为 m(t) Xμ 的mgf,所以 m(0)=1,m(0)=E(Xμ)=0,m(0)=E[(Xμ)2]=σ2 ,根据泰勒公式存在 0<ξ<t 使得

m(t)=m(0)+m(0)t+m(ξ)t22=1+m(ξ)t22

我们加上在减去 σ2t2/2 ,得到

m(t)=1+σ2t22+[m(ξ)σ2]t22(1)

接下来考虑 M(t;n) ,其中

M(t;n)=E[exp(tXinμσn)]=E[exp(tX1μσn)exp(tX2μσn)exp(tXnμσn)]=E[exp(tX1μσn)]E[exp(tXnμσn)]={E[exp(tXμσn)]}n=[n(tσn)]n,h<tσn<h

(1) 中用 t/σn 替换 t 可得

m(tσn)=1+t22n+[m(ξ)σ2]t22nσ2

其中 ξ 位于 0,t/σn 之间,所以

M(t;n)={1+t22n+[m(ξ)σ2]t22nσ2}n

因为 m(t) t=0 处连续,且 n ξ0 ,所以我们有

limn[m(ξ)σ2]=0

根据极限的性质可得

limnM(t;n)=et2/2

这就证明了随机变量 Yn=n(X¯nμ)/σ 有极限标准正态分布。 ||

我们可以这么解释上面的定理,当 n 是一个较大且固定的整数时,随机变量X¯近似为均值为 μ 方差为 σ2/n 的正态分布;在实际中我们用这个正态pdf近似实际的pdf。

1 X¯ 表示pdf为

f(x)={100<x<1elsewhere

分布中随机得到75个样本的均值,那么要想计算 P(0.45<X¯<0.55) 这样的概率就很复杂。因为 M(t) 对所有的 t 实值存在,所以定理的条件满足,进一步μ=12,σ2=112,所以我们可以近似

P(0.45<X¯<0.55)=P[n(0.45μ)σ<n(X¯μ)σ<n(0.55μ)σ]=P[1.5<30(X¯0.5)<1.5]=0.866

2 X1,X2,,Xn 表示从分布 b(1,p) 中得到的随机样本,这里 μ=p,σ2=p(1p) ,且对 t 的所有实值M(t)存在。如果 Yn=X1++Xn ,我们知道 Yn 满足 b(n,p) 。我们可以利用事实 (Ynnp)/np(1p)=n(X¯p)/p(1p)=n(X¯μ)/σ 的极限分布为均值0方差1的正态分布,很容易的计算出 Yn 的概率。一般来说统计量 Yn 近似为均值 np 方差 np(1p) 的正态分布,即便 n 比较小如10,p=12使得二项分布关于 np=5 对称,如图1所示。 N(5,52) 拟合二项分布 b(10,12) 其中矩形的高度表示整数 0,1,2,,10 的概率,底为 (k0.5,k+0.5) 的矩形面积与 k0.5,k+0.5 之间正态pdf下面的面积近似想等,这个实例有助于我们理解例3。

3 考虑例2, n=100,p=12 并假设我们相计算 P(Y=48,49,50,51,52) 的概率,因为 Y 是离散随机变量,所以{Y=48,49,50,51,52},{47.5<Y<52.5}是等价的事件,即 P(Y=48,49,50,51,52)=P(47.5<Y<52.5) 。因为 np=50,np(1p)=25 ,后者的概率可以写成

P(47.5<Y<52.5)=P(47.5505<Y505<52.5505)=P(0.5<Y505<0.5)

因为 (Y50)/5 近似满足均值为0方差为1的正态分布,所以查表即可得出答案。


这里写图片描述
图1

选择 47.5<Y<52.5 而不是 47.8<Y<52.3 作为事件 Y=48,49,50,51,52 的等价事件是因为: P(Y=48,49,50,51,52) 的概率可以解释成矩形面积的和,而矩形的高度分别为 P(Y=48),,P(Y=52) ,如果这些矩形底的中点分别对应 48,49,,52 ,那么对于由横坐标,正态pdf以及两个坐标限定区域构成的近似和,我们取坐标点为47.5,52.5也是比较合理的,这称为连续性矫正。

我们知道当 n 足够大时X¯,n1Xi近似满足正态分布,随后我们会发现一些其它近似为正态分布的统计量,这也是为何正态分布为如此重要,虽然许多统计分布不是正态的,但是来自这些统计的随机样本统计量分布一般非常靠近正态分布。

许多情况下,我们对近似满足正态分布统计量的函数感兴趣,考虑例2的随机变量序列 Yn ,近似满足 N[np,np(1p)] np(1p) p 的函数也即是Yn的方差,所以如果 p 未知,我们相估计Yn,因为 E(Yn/n)=p ,所以我们可以用 n(Yn/n)(1Yn/n) 作为估计量。特别的它也近似满足正态分布吗?如果是的话均值与方差是多少?为了回答这个问题,需要使用 Δ 方法。

为了说明 Δ 方法,考虑样本均值的函数,我们知道 X¯ 依概率收敛到 μ X¯ 近似为 N(μ,σ2/n) ,假设我们对 X¯n 的函数感兴趣, u(X¯n) ,其中 u μ处可导且 u(μ)0 ,那么 u(X¯) 近似满足 N{u(μ),[u(μ)]2σ2/n} ,正式点说就是

u(Xn¯)u(μ)[u(μ)]2σ2/n

满足极限标准正态分布。

4 Yn (或者简单写为 Y )满足b(n,p),那么 Y/n 近似满足 N[p,p(1p)] 。统计学家经常要寻找方差不依赖参数的统计量函数,这里 Y/n 的方差依赖于 p ,那么我们能找到函数u(Y/n)使得其方差与 p 无关吗?因为Y/n依概率收敛到 p ,所以我们可以用一阶泰勒公式近似u(Y/n)

u(Yn)=v(Yn)=u(p)+(Ynp)u(p)

当然 v(Y/n) Y/n 的线性函数,所以也近似正态分布;显然均值为 u(p) 方差为

[u(p)]2p(1p)n

为了让其独立 p ;我们令其等于常数,得到微分方程

u(p)=cp(1p)

其解为

u(p)=(2c)arcsinp

如果我们取 c=12 ,因为 u(Y/n) 近似等于 v(Y/n) ,所以我们有

u(Yn)=arcsinYn

近似满足均值为 p 方差为 1/4n 的正态分布。

  • 2
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值