第四章 极限定理(2)
1.Lindeberg-Levy CLT
中心极限定理(CLT, central limit theorem),揭露的是一般分布与正态分布的普遍性联系,这也侧面说明了正态分布在概率论中的重要意义。
CLT的一般定义如下:如果有一列随机变量
{
ξ
n
}
\{\xi_n\}
{ξn},若存在常数列
{
B
n
}
>
0
\{B_n\}>0
{Bn}>0和
{
A
n
}
\{A_n\}
{An},使得
1
B
n
∑
k
=
1
n
ξ
k
−
A
n
→
d
N
(
0
,
1
)
,
\frac{1}{B_n}\sum_{k=1}^n \xi_k -A_n\stackrel d\to N(0,1),
Bn1k=1∑nξk−An→dN(0,1),
就称
{
ξ
n
}
\{\xi_n\}
{ξn}服从中心极限定理。
简单说来,中心极限定理指的是对于一系列随机变量之和,如果能通过一定的线性变换,使得变换后的随机变量依分布收敛于标准正态分布,则称这一系列随机变量服从CLT。当然,这里的 B n , A n B_n,A_n Bn,An是可解析的,也就是给定一个 n n n,能够直接写出 B n , A n B_n,A_n Bn,An的值才行。将随机变量之和通过修饰变成标准正态分布,就可以通过查询标准正态分布表,来判断随机变量之和服从什么样的分布。
至于什么样的随机变量列服从中心极限定理,接下来有几个重要的定理来保证。
Lindeberg-Levy定理指出,对于一系列独立同分布的随机变量
{
ξ
n
}
\{\xi_n\}
{ξn},记
S
n
=
∑
k
=
1
n
ξ
k
.
a
=
E
ξ
i
,
σ
2
=
D
ξ
i
S_n=\sum\limits_{k=1}^n \xi_k.a=E\xi_i,\sigma^2=D\xi_i
Sn=k=1∑nξk.a=Eξi,σ2=Dξi,则中心极限定理以如下的形式成立:
S
n
−
n
a
n
σ
→
d
N
(
0
,
1
)
.
\frac{S_n-na}{\sqrt n\sigma}\stackrel d\to N(0,1).
nσSn−na→dN(0,1).
从形式上看,由于独立随机变量均值与方差的线性可加性,因此
n
a
na
na和
n
σ
\sqrt n\sigma
nσ其实就是
S
n
S_n
Sn的均值和标准差,这个定理的内容,就是独立同分布随机变量之和的标准化服从
N
(
0
,
1
)
N(0,1)
N(0,1)。为证明,需要用到特征函数工具,设
f
(
t
)
f(t)
f(t)是
ξ
1
−
a
\xi_1-a
ξ1−a的特征函数,
f
n
(
t
)
f_n(t)
fn(t)是
S
n
−
n
a
n
σ
\frac{S_n-na}{\sqrt n\sigma}
nσSn−na的特征函数,从而由特征函数的可加性,有
f
n
(
t
)
=
[
f
(
t
n
σ
)
]
n
.
f_n(t)=\left[f\left(\frac{t}{\sqrt n\sigma}\right)\right]^n.
fn(t)=[f(nσt)]n.
又因为
E
(
ξ
i
−
a
)
=
0
,
E
(
ξ
1
−
a
)
2
=
σ
2
E(\xi_i-a)=0,E(\xi_1-a)^2=\sigma^2
E(ξi−a)=0,E(ξ1−a)2=σ2,所以对
f
(
t
)
f(t)
f(t)进行Taylor展开,得到
f
(
t
)
=
f
(
0
)
+
f
′
(
0
)
t
+
1
2
f
′
′
(
0
)
t
2
+
o
(
t
2
)
,
f
(
0
)
=
1
,
f
′
(
0
)
=
0
,
f
′
′
(
0
)
=
i
2
σ
2
=
−
σ
2
,
f
(
t
/
n
σ
)
=
1
−
t
2
2
n
+
o
(
t
2
)
f(t)=f(0)+f'(0)t+\frac{1}{2}f''(0)t^2+o(t^2),\\ f(0)=1,f'(0)=0,f''(0)=i^2\sigma^2=-\sigma^2,\\ f(t/\sqrt n\sigma)=1-\frac{t^2}{2n}+o(t^2)
f(t)=f(0)+f′(0)t+21f′′(0)t2+o(t2),f(0)=1,f′(0)=0,f′′(0)=i2σ2=−σ2,f(t/nσ)=1−2nt2+o(t2)
如果将其看成关于
n
n
n的多项式,则变成
f
(
t
/
n
σ
)
=
1
−
t
2
2
n
+
o
(
1
n
)
.
f(t/\sqrt n\sigma)=1-\frac{t^2}{2n}+o(\frac1n).
f(t/nσ)=1−2nt2+o(n1).
当
n
→
∞
n\to \infty
n→∞时,有
f
n
(
t
)
=
(
1
−
t
2
2
n
+
o
(
1
n
)
)
n
=
e
−
t
2
2
f_n(t)=\left(1-\frac{t^2}{2n}+o(\frac1n)\right)^n=e^{-\frac{t^2}{2}}
fn(t)=(1−2nt2+o(n1))n=e−2t2
由于
N
(
a
,
σ
2
)
N(a,\sigma^2)
N(a,σ2)的特征函数为
e
i
a
t
−
1
2
σ
2
t
2
e^{iat-\frac12\sigma^2t^2}
eiat−21σ2t2,所以上式正是
N
(
0
,
1
)
N(0,1)
N(0,1)的特征函数,也就证明了
S
n
−
n
a
σ
n
→
d
N
(
0
,
1
)
\frac{S_n-na}{\sigma \sqrt n}\stackrel d\to N(0,1)
σnSn−na→dN(0,1)。
- 在此定理以前,已经有人对两点分布的情形做了如下判断,即
B
(
1
,
p
)
B(1,p)
B(1,p)的
S
n
S_n
Sn满足
S n − n p n p q → d N ( 0 , 1 ) . \frac{S_n-np}{\sqrt{npq}}\stackrel d\to N(0,1). npqSn−np→dN(0,1).
这被称为De Moivre-Laplace中心极限定理。
2.Lindeberg-Feller CLT
Lindeberg-Levy定理保证了独立同分布随机变量列的CLT成立,但如果随机变量列仅仅是独立,而不满足同分布呢?Lindeberg-Feller中心极限定理作出如下结论:对于独立随机变量序列
{
ξ
k
}
\{\xi_k\}
{ξk},如果满足Lyapunov定理所要求的的条件,即
∃
δ
>
0
,
∑
k
=
1
n
E
∣
ξ
k
−
E
ξ
k
∣
2
+
δ
(
∑
k
=
1
n
D
ξ
k
)
1
+
δ
/
2
→
0
,
\exists \delta >0,\quad \frac{\sum_{k=1}^n E|\xi_k-E\xi_k|^{2+\delta}}{(\sum_{k=1}^n D\xi_k)^{1+\delta/2}}\to 0,
∃δ>0,(∑k=1nDξk)1+δ/2∑k=1nE∣ξk−Eξk∣2+δ→0,
那么Lindeberg-Feller CLT成立,即
∑
k
=
1
n
(
ξ
k
−
E
ξ
k
)
∑
k
=
1
n
D
ξ
k
→
d
N
(
0
,
1
)
.
\frac{\sum_{k=1}^n (\xi_k-E\xi_k)}{\sqrt {\sum_{k=1}^n D\xi_k}}\stackrel d\to N(0,1).
∑k=1nDξk∑k=1n(ξk−Eξk)→dN(0,1).
这个定理其实就是令
S
n
=
∑
k
=
1
n
ξ
k
S_n=\sum\limits_{k=1}^n \xi_k
Sn=k=1∑nξk,如果满足一定的条件,那么
S
n
−
E
S
n
D
S
n
→
N
(
0
,
1
)
\frac{S_n-ES_n}{\sqrt{DS_n}}\to N(0,1)
DSnSn−ESn→N(0,1),条件就是Lyapunov定理所要求的。一般情况下,至多用到
δ
=
1
,
2
\delta=1,2
δ=1,2的情况。
日后会在概率估计、参数估计、假设检验等方面都用到CLT,因此对CLT的形式,尤其是Lindeberg-Levy CLT要牢记。
3.(Weak )Law of Large Numbers
前面所提到的CLT,是将一列随机变量求和以后近似服从标准正态分布的定理,而这里的大数定律,只针对样本均值的收敛性作出结论。所谓样本均值,指的是对于一系列独立同分布的随机变量 { ξ i } \{\xi_i\} {ξi},由于每次试验相当于对一个 ξ i \xi_i ξi进行观测,所以我们称 ξ i \xi_i ξi是一个样本,样本均值指的就是 ∑ i = 1 n ξ i n \frac{\sum_{i=1}^n \xi_i}{n} n∑i=1nξi,也就是对样本加总再除以样本容量。
这里要区分两个概念,对于随机变量,随机变量的均值是一个常数,但对于一系列样本,样本均值依然是一个随机变量。
由常识判断,样本均值一定会趋近于总体数学期望,而大数定律就解释了这个道理,接下来介绍几个重要的大数定律。
KhinChin大数定律针对一系列独立同分布随机变量列
{
ξ
n
}
\{\xi_n\}
{ξn},这里
E
ξ
i
=
μ
E\xi_i=\mu
Eξi=μ,记
∑
i
=
1
n
ξ
i
=
S
n
\sum\limits_{i=1}^n \xi_i=S_n
i=1∑nξi=Sn,则有
S
n
n
→
P
μ
.
\frac{S_n}{n}\stackrel P\to \mu.
nSn→Pμ.
证明依然可以用特征函数法,设
f
(
t
)
f(t)
f(t)是
ξ
\xi
ξ的特征函数,
f
n
(
t
)
f_n(t)
fn(t)是
S
n
n
\frac{S_n}n
nSn的特征函数,则由特征函数的可加性,有
f
n
(
t
)
=
[
f
(
t
n
)
]
n
f_n(t)=[f(\frac tn)]^n
fn(t)=[f(nt)]n。并且对
f
(
t
)
f(t)
f(t)进行Taylor展开,有
f
(
t
)
=
1
+
i
μ
t
+
o
(
t
2
)
,
f(t)=1+i\mu t+o(t^2),
f(t)=1+iμt+o(t2),
故以
n
n
n为主变量,得到
f
(
t
n
)
=
1
+
i
μ
t
n
+
o
(
1
n
)
,
f
n
(
t
)
=
(
1
+
i
μ
t
n
+
o
(
1
n
)
)
n
→
e
i
μ
t
.
f(\frac tn)=1+\frac{i\mu t}{n}+o(\frac 1n),\\ f_n(t)=\left(1+\frac{i\mu t}{n}+o(\frac 1n)\right)^n\to e^{i\mu t}.
f(nt)=1+niμt+o(n1),fn(t)=(1+niμt+o(n1))n→eiμt.
而
f
n
(
t
)
=
e
i
μ
t
f_n(t)=e^{i\mu t}
fn(t)=eiμt是退化分布(以概率1取值于单点)
μ
\mu
μ的特征函数,所以有
S
n
n
→
d
μ
\frac{S_n}{n}\stackrel d\to \mu
nSn→dμ,又由于
μ
\mu
μ是常数,所以有
S
n
n
→
P
μ
\frac{S_n}{n}\stackrel P\to \mu
nSn→Pμ。
要是随机变量列独立,但不是同分布的,则有Chebyshev大数定律如下:对于随机变量列
{
ξ
n
}
\{\xi_n\}
{ξn},这里
E
ξ
i
=
μ
i
,
D
ξ
i
=
σ
i
2
E\xi_i=\mu_i,D\xi_i=\sigma_i^2
Eξi=μi,Dξi=σi2,如果
∑
k
=
1
n
σ
k
2
n
2
→
0
,
\frac{\sum\limits_{k=1}^n \sigma_k^2}{n^2}\to 0,
n2k=1∑nσk2→0,
那么Chebyshev大数定律表现为样本均值依概率收敛到其均值(样本均值的均值),即
S
n
n
→
P
E
(
S
n
n
)
=
∑
k
=
1
n
μ
k
n
.
\frac{S_n}{n}\stackrel P\to E\left(\frac{S_n}{n}\right)=\frac{\sum\limits_{k=1}^n \mu_k}{n}.
nSn→PE(nSn)=nk=1∑nμk.
证明用到Chebyshev不等式,即考虑随机变量
1
n
∑
k
=
1
n
ξ
k
\frac1n \sum\limits_{k=1}^n \xi_k
n1k=1∑nξk,它的期望是
1
n
∑
k
=
1
n
μ
i
\frac1n \sum\limits_{k=1}^n \mu_i
n1k=1∑nμi,方差是
1
n
2
∑
k
=
1
n
σ
k
2
\frac 1{n^2}\sum\limits_{k=1}^n\sigma_k^2
n21k=1∑nσk2,有
P
(
∣
S
n
n
−
E
S
n
n
∣
≥
ε
)
)
≤
D
(
S
n
n
)
ε
2
→
0.
P\left(|\frac{S_n}{n}-E\frac{S_n}{n}|\ge \varepsilon)\right)\le \frac{D(\frac{S_n}{n})}{\varepsilon^2}\to 0.
P(∣nSn−EnSn∣≥ε))≤ε2D(nSn)→0.
- 在此定理以前,已经有人对两点分布的情形做了如下判断,即
B
(
1
,
p
)
B(1,p)
B(1,p)的
S
n
S_n
Sn满足
S n n → P p , \frac{S_n}{n}\stackrel P\to p, nSn→Pp,
这被称为Bernoulli(弱)大数定律。
4.Strong Law of Large Numbers
既然弱大数定律是样本均值依概率收敛到总体均值,那么强大数定律就对收敛性进行了更高的要求,即以概率1收敛。
Kolmogorov强大数定律:设
{
ξ
n
}
\{\xi_n\}
{ξn}是独立同分布随机变量列,且
E
ξ
i
=
μ
E\xi_i=\mu
Eξi=μ。记
S
n
=
∑
k
=
1
n
ξ
k
S_n=\sum\limits_{k=1}^n \xi_k
Sn=k=1∑nξk,则
S
n
n
→
μ
a.s.
\frac{S_n}{n}\to \mu\quad\text{a.s.}
nSn→μa.s.
- 在此定理以前,已经有人对两点分布的情形做了如下判断,即
B
(
1
,
p
)
B(1,p)
B(1,p)的
S
n
S_n
Sn满足
S n n → p , a.s. \frac{S_n}{n}\to p,\quad \text{a.s.} nSn→p,a.s.
这被称为Borel强大数定律。