经验分布函数
对样本值进行从大到小排序,可得到
x(1)⋯x(n)
x
(
1
)
⋯
x
(
n
)
的有序样本。定义
Fn(x)=⎧⎩⎨⎪⎪0,kn,1,x<x(1),当x(k)≤x<x(k+1),k=1,2,...,n−1,当x≥x(n)
F
n
(
x
)
=
{
0
,
x
<
x
(
1
)
,
k
n
,
当
x
(
k
)
≤
x
<
x
(
k
+
1
)
,
k
=
1
,
2
,
.
.
.
,
n
−
1
,
1
,
当
x
≥
x
(
n
)
为经验分布函数,其满足分布函数的性质:
- 单调不减
- 有界性
- 右连续性
下面给个例子:下面有容量为5的样本数据:
经排序可得有序样本:
其经验分布函数为
Fn(x)=⎧⎩⎨⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪0,0.2,0.4,0.8,1,x<344,344≤x<347,347≤x<351,351≤x<355,当x≥355
F
n
(
x
)
=
{
0
,
x
<
344
,
0.2
,
344
≤
x
<
347
,
0.4
,
347
≤
x
<
351
,
0.8
,
351
≤
x
<
355
,
1
,
当
x
≥
355
可以看得到经验分布函数为阶梯函数。想象一下当样本数增多时,经验分布函数的阶梯数不断增多,最后会趋近于一个光滑分布函数的形状(但并不光滑)。为什么 要定义经验分布函数呢?接下来介绍一个最重要的定理: 格里纹科定理。
设 x1,x2,...xn x 1 , x 2 , . . . x n 是取自总体分布函数为F(x)的样本, Fn(x) F n ( x ) 是其经验分布函数,当 n→∞ n → ∞ 时,有
也即是说当n足够大时,经验分布函数是总体分布函数F(x)的一个良好的近似。格里纹科定理表明,当样本数足够多时,用样本估计总体是合理的,这即是数理统计的基础。
下面举个例子,在R里不断生成标准正态随机数,我们观察经验分布函数的图像:
当n=10时:
当n=20时:
当n=50时:
当n=100时:
当n=1000时:
可以看到随着样本数增加,经验分布函数逐渐趋向于一条光滑的分布函数曲线。理论上来说也是由格里纹科定理保证的。