如果
X1,X2,…,Xn
是均值为
μ
,方差为
σ2
正态分布的随机样本,那么对任意正整数
n
,随机变量
满足均值为零方差为1的正态分布。在概率论中有个非常优雅的定理叫中心极限定理,这个定理的特殊情况指出了一个重要的事实:如果
X1,X2,…,Xn
为任意有限方差
σ2>0
(因此均值也是有限的)分布的大小为
n
的随机样本,那么随机变量
定理1: X1,X2,…,Xn 表示均值为 μ 方差为 σ2 分布的随机样本观测值,那么随机变量 Yn=(∑n1Xi−nμ)/n‾‾√σ=n‾‾√(X¯−μ)/σ 依分布收敛到满足均值为0方差为1正态分布的随机变量。
证明: 我们额外假设 −h<t<h 时,mgf M(t)=E(etX) 存在,如果用特征函数代替mgf即 φ(t)=E(eitX) ,那么它总是存在的。
当
−h<t<h
时,函数
也存在。因为
m(t)
是
X−μ
的mgf,所以
m(0)=1,m′(0)=E(X−μ)=0,m″(0)=E[(X−μ)2]=σ2
,根据泰勒公式存在
0<ξ<t
使得
我们加上在减去
σ2t2/2
,得到
接下来考虑
M(t;n)
,其中
在
(1)
中用
t/σn‾‾√
替换
t
可得
其中
ξ
位于
0,t/σn‾‾√
之间,所以
因为
m″(t)
在
t=0
处连续,且
n→∞
时
ξ→0
,所以我们有
根据极限的性质可得
这就证明了随机变量 Yn=n‾‾√(X¯n−μ)/σ 有极限标准正态分布。 ||
我们可以这么解释上面的定理,当
n
是一个较大且固定的整数时,随机变量
例1:
X¯
表示pdf为
分布中随机得到75个样本的均值,那么要想计算
P(0.45<X¯<0.55)
这样的概率就很复杂。因为
M(t)
对所有的
t
实值存在,所以定理的条件满足,进一步
例2:
X1,X2,…,Xn
表示从分布
b(1,p)
中得到的随机样本,这里
μ=p,σ2=p(1−p)
,且对
t
的所有实值
例3:
考虑例2,
n=100,p=12
并假设我们相计算
P(Y=48,49,50,51,52)
的概率,因为
Y
是离散随机变量,所以
因为
(Y−50)/5
近似满足均值为0方差为1的正态分布,所以查表即可得出答案。
图1
选择 47.5<Y<52.5 而不是 47.8<Y<52.3 作为事件 Y=48,49,50,51,52 的等价事件是因为: P(Y=48,49,50,51,52) 的概率可以解释成矩形面积的和,而矩形的高度分别为 P(Y=48),…,P(Y=52) ,如果这些矩形底的中点分别对应 48,49,…,52 ,那么对于由横坐标,正态pdf以及两个坐标限定区域构成的近似和,我们取坐标点为47.5,52.5也是比较合理的,这称为连续性矫正。
我们知道当
n
足够大时
许多情况下,我们对近似满足正态分布统计量的函数感兴趣,考虑例2的随机变量序列
Yn
,近似满足
N[np,np(1−p)]
,
np(1−p)
是
p
的函数也即是
为了说明
Δ
方法,考虑样本均值的函数,我们知道
X¯
依概率收敛到
μ
且
X¯
近似为
N(μ,σ2/n)
,假设我们对
X¯n
的函数感兴趣,
u(X¯n)
,其中
u
在
满足极限标准正态分布。
例4:
Yn
(或者简单写为
Y
)满足
当然
v(Y/n)
是
Y/n
的线性函数,所以也近似正态分布;显然均值为
u(p)
方差为
为了让其独立
p
;我们令其等于常数,得到微分方程
其解为
如果我们取
c=12
,因为
u(Y/n)
近似等于
v(Y/n)
,所以我们有
近似满足均值为 p‾‾√ 方差为 1/4n 的正态分布。