经验分布函数
定义:
X
1
,
⋯
,
X
n
∼
F
X_1, \cdots,X_n\sim F
X1,⋯,Xn∼F为IID样本,F是某个分布函数。则F的一个估计为经验分布函数:
F
n
^
(
x
)
=
∑
i
=
1
N
I
(
X
i
<
x
)
n
\hat{F_n}(x)=\frac{\sum_{i=1}^{N}I(X_i<x)}{n}
Fn^(x)=n∑i=1NI(Xi<x)上式的含义是在每一个数据处放置一个
1
n
\frac{1}{n}
n1的概率密度。个人理解就是类似于一个累计直方图。
其中,
I
(
X
i
<
x
)
I(X_i<x)
I(Xi<x)是示性函数,括号内满足时为1,不满足时为0。特别注意上式是关于
x
x
x的函数。
无偏性
下面我要证明这个估计是一个无偏估计。
E
[
F
n
^
(
x
)
]
=
E
[
∑
i
=
1
N
I
(
X
i
<
x
)
n
]
=
1
n
∑
i
=
1
N
E
[
I
(
X
i
<
x
)
]
=
1
n
∑
i
=
1
N
∫
x
I
(
X
i
<
x
)
f
X
(
x
)
d
x
=
1
n
∑
i
=
1
N
∫
X
i
<
x
f
X
(
x
)
d
x
=
1
n
∑
i
=
1
N
P
(
X
i
<
x
)
=
F
(
x
)
\begin{aligned} E[\hat{F_n}(x)] & =E[\frac{\sum_{i=1}^{N}I(X_i<x)}{n}]\\ & =\frac{1}{n}\sum_{i=1}^{N}E[I(X_i<x)]\\ &=\frac{1}{n}\sum_{i=1}^{N}\int_xI(X_i<x)f_X(x)dx\\ &=\frac{1}{n}\sum_{i=1}^{N}\int_{X_i<x}f_X(x)dx\\ &=\frac{1}{n}\sum_{i=1}^{N}P(X_i<x)\\ &=F(x) \end{aligned}
E[Fn^(x)]=E[n∑i=1NI(Xi<x)]=n1i=1∑NE[I(Xi<x)]=n1i=1∑N∫xI(Xi<x)fX(x)dx=n1i=1∑N∫Xi<xfX(x)dx=n1i=1∑NP(Xi<x)=F(x)
方差的推导
V
(
F
n
^
(
x
)
)
=
V
(
∑
i
=
1
N
I
(
X
i
<
x
)
n
)
=
1
n
2
∑
i
=
1
N
V
(
I
(
X
i
<
x
)
)
=
1
n
2
∑
i
=
1
N
(
E
(
I
(
X
i
<
x
)
2
)
−
(
E
(
I
(
X
i
<
x
)
)
)
2
)
=
1
n
2
∑
i
=
1
N
(
E
(
I
(
X
i
<
x
)
−
(
E
(
I
(
X
i
<
x
)
)
)
2
)
=
1
n
2
∑
i
=
1
N
(
F
(
x
)
−
F
(
x
)
2
)
=
F
(
x
)
(
1
−
F
(
x
)
)
n
\begin{aligned} \mathbb{V}(\hat{F_n}(x))&=V(\frac{\sum_{i=1}^{N}I(X_i<x)}{n})\\ &=\frac{1}{n^2}\sum_{i=1}^{N}V(I(X_i<x))\\ &=\frac{1}{n^2}\sum_{i=1}^{N}(E(I(X_i<x)^2)-(E(I(X_i<x)))^2)\\ &=\frac{1}{n^2}\sum_{i=1}^{N}(E(I(X_i<x)-(E(I(X_i<x)))^2)\\ &=\frac{1}{n^2}\sum_{i=1}^{N}(F(x)-F(x)^2)\\ &=\frac{F(x)(1-F(x))}{n} \end{aligned}
V(Fn^(x))=V(n∑i=1NI(Xi<x))=n21i=1∑NV(I(Xi<x))=n21i=1∑N(E(I(Xi<x)2)−(E(I(Xi<x)))2)=n21i=1∑N(E(I(Xi<x)−(E(I(Xi<x)))2)=n21i=1∑N(F(x)−F(x)2)=nF(x)(1−F(x))
这里面用到了示性函数的平方等于它本身的特点。
这实际上也是Larry Wasserman《All of statistics》定理7.3的证明,也就是课后习题第一道。证明过程都是自己写的,不一定正确,欢迎大家来探讨。