07.经验分布函数
设
X
1
,
X
2
,
…
,
X
n
∼
i
.
i
.
d
.
F
X_{1}, X_{2}, \ldots, X_{n}\stackrel{i.i.d.}{\sim} F
X1,X2,…,Xn∼i.i.d.F. 样本分布函数
F
n
F_{n}
Fn 由n个观测值
X
i
X_{i}
Xi构造,每个
X
i
X_i
Xi被赋有相同的权重
1
/
n
1 / n
1/n, 定义为
F
n
(
x
)
=
1
n
∑
i
=
1
n
1
{
X
i
≤
x
}
,
x
∈
R
F_{n}(x)=\frac{1}{n} \sum_{i=1}^{n} 1_{\left\{X_{i} \leq x\right\}}, x \in \mathbb{R}
Fn(x)=n1i=1∑n1{Xi≤x},x∈R
注:对于多元情况,不等号为逐分量成立。
样本分布函数也称为经验分布函数(ECDF),具有两重性:
- 对固定样本 X i X_i Xi, F n ( ⋅ ) F_n(\cdot) Fn(⋅)是累积分布函数
- 对于固定的 x x x, F n ( x ) F_n(x) Fn(x)是随机变量
无偏性、收敛性与渐进正态性
定理7.1给出了经验分布函数的无偏性,收敛性与渐进正态性。
定理7.1:对固定 x ∈ R x \in \mathbb{R} x∈R
E { F n ( x ) } = F ( x ) \mathrm{E}\left\{F_{n}(x)\right\}=F(x) E{Fn(x)}=F(x) , Var { F n ( x ) } = F ( x ) { 1 − F ( x ) } n \operatorname{Var}\left\{F_{n}(x)\right\}=\frac{F(x)\{1-F(x)\}}{n} Var{Fn(x)}=nF(x){1−F(x)}
F n ( x ) → 2 n d F ( x ) F_{n}(x) \stackrel{2 n d}{\rightarrow} F(x) Fn(x)→2ndF(x) ,则有 F n ( x ) → p F ( x ) F_{n}(x) \stackrel{p}{\rightarrow} F(x) Fn(x)→pF(x)
F n ( x ) → w p 1 F ( x ) F_{n}(x) \stackrel{w p 1}{\rightarrow} F(x) Fn(x)→wp1F(x)
[ F n ( x ) − E { F n ( x ) } ] / Var { F n ( x ) } → d N ( 0 , 1 ) \left[F_{n}(x)-\mathrm{E}\left\{F_{n}(x)\right\}\right] / \sqrt{\operatorname{Var}\left\{F_{n}(x)\right\}} \stackrel{d}{\rightarrow} N(0,1) [Fn(x)−E{Fn(x)}]/Var{Fn(x)}→dN(0,1)
注:较为常用的, n F n ( x ) ∼ Binomial ( n , F ( x ) ) n F_{n}(x) \sim \operatorname{Binomial}(n, F(x)) nFn(x)∼Binomial(n,F(x))
KSn统计量
定义 Kolmogorov-Smirnov 距离:
K
S
n
=
sup
x
∥
F
n
(
x
)
−
F
(
x
)
∥
\mathrm{KS}_{n}=\sup _{\boldsymbol{x}}\left\|F_{n}(\boldsymbol{x})-F(\boldsymbol{x})\right\|
KSn=xsup∥Fn(x)−F(x)∥
为用来衡量
F
n
F_n
Fn与
F
F
F间相似程度的统计量。该统计量具有分布无关性。
定理7.2(Dvoretzky–Kiefer–Wolfowitz, 1956):令 F F F 为定义在 R \mathbb{R} R的函数. 则存在常数 C C C (与 F F F 无关) 使得
P ( K S n > ϵ ) ≤ C exp ( − 2 n ϵ 2 ) , ϵ > 0 \mathrm{P}\left(\mathrm{KS}_{n}>\epsilon\right) \leq C \exp \left(-2 n \epsilon^{2}\right), \epsilon>0 P(KSn>ϵ)≤Cexp(−2nϵ2),ϵ>0
对任意 n = 1 , 2 , … n=1,2, \ldots n=1,2,…均成立
注:由7.2可得 P ( n K S n > ϵ ) ≤ C exp ( − 2 ϵ 2 ) \mathrm{P}\left(\sqrt{n} \mathrm{KS}_{n}>\epsilon\right) \leq C \exp \left(-2 \epsilon^{2}\right) P(nKSn>ϵ)≤Cexp(−2ϵ2),因此 n K S n = O p ( 1 ) \sqrt{n} \mathrm{KS}_{n}=O_{p}(1) nKSn=Op(1)
推论:
令
C
C
C 为DKW 不等式中的常数. 则对任意的
ϵ
>
0
\epsilon>0
ϵ>0,有
P
(
sup
m
≥
n
K
S
m
>
ϵ
)
≤
C
D
ϵ
n
1
−
D
ϵ
\mathrm{P}\left(\sup _{m \geq n} \mathrm{KS}_{m}>\epsilon\right) \leq \frac{C D_{\epsilon}^{n}}{1-D_{\epsilon}}
P(m≥nsupKSm>ϵ)≤1−DϵCDϵn
其中
D
ϵ
=
exp
(
−
2
ϵ
2
)
D_{\epsilon}=\exp \left(-2 \epsilon^{2}\right)
Dϵ=exp(−2ϵ2).
由此可以得到Glivenko-Cantelli定理。
Glivenko-Cantelli定理
定理7.3(Glivenko-Cantelli):设 F F F 为定义在 R d \mathbb{R}^{d} Rd( d ≥ 1 d \geq 1 d≥1)上的累积分布函数,则有 K S n → w p 1 0 \mathrm{KS}_{n} \stackrel{w p 1}{\rightarrow} 0 KSn→wp10
进一步的,由Kolmogorov定理可以得出 K S n KS_n KSn的渐进分布为布朗桥
定理7.4(Kolmogorov):令 F \mathrm{F} F 定义在 R \mathbb{R} R 上并且连续,则:
P ( n K S n ≤ ϵ ) → 1 − 2 ∑ i = 1 ∞ ( − 1 ) i + 1 exp ( − 2 i 2 ϵ 2 ) , ϵ > 0 \mathrm{P}\left(\sqrt{n} \mathrm{KS}_{n} \leq \epsilon\right) \rightarrow 1-2 \sum_{i=1}^{\infty}(-1)^{i+1} \exp \left(-2 i^{2} \epsilon^{2}\right), \epsilon>0 P(nKSn≤ϵ)→1−2i=1∑∞(−1)i+1exp(−2i2ϵ2),ϵ>0
定理7.5给出 F n F_n Fn的精确分布具有( X i X_i Xi)分布无关性
定理7.5:令 F \mathrm{F} F 定义在 R \mathbb{R} R 上并且连续。则 n K S n \sqrt n KS_n nKSn是分布无关的,它的精确分布与 F F F无关。
证明:
定义 F − 1 ( p ) = inf { x : F ( x ) ≥ p } F^{-1}(p)=\inf \{x: F(x) \geq p\} F−1(p)=inf{x:F(x)≥p}.则有对任意 p ∈ ( 0 , 1 ) p \in(0,1) p∈(0,1) 和 x ∈ R , F − 1 ( p ) ≤ x x \in \mathbb{R}, F^{-1}(p) \leq x x∈R,F−1(p)≤x ⟺ \iff ⟺ p ≤ F ( x ) p \leq F(x) p≤F(x)
则有
sup
x
∣
F
n
(
x
)
−
F
(
x
)
∣
=
sup
0
≤
p
≤
1
∣
F
n
{
F
−
1
(
p
)
}
−
F
{
F
−
1
(
p
)
}
∣
=
sup
0
≤
p
≤
1
∣
F
n
{
F
−
1
(
p
)
}
−
p
∣
\begin{aligned} \sup _{x}\left|F_{n}(x)-F(x)\right| &=\sup _{0 \leq p \leq 1}\left|F_{n}\left\{F^{-1}(p)\right\}-F\left\{F^{-1}(p)\right\}\right| \\ &=\sup _{0 \leq p \leq 1}\left|F_{n}\left\{F^{-1}(p)\right\}-p\right| \end{aligned}
xsup∣Fn(x)−F(x)∣=0≤p≤1sup∣∣Fn{F−1(p)}−F{F−1(p)}∣∣=0≤p≤1sup∣∣Fn{F−1(p)}−p∣∣
其中
F
n
{
F
−
1
(
p
)
}
=
n
−
1
∑
i
=
1
n
1
{
X
i
≤
F
−
1
(
p
)
}
=
n
−
1
∑
i
=
1
n
1
{
F
(
X
i
)
≤
p
}
=
d
n
−
1
∑
i
=
1
n
1
{
U
i
≤
p
}
F_{n}\left\{F^{-1}(p)\right\}=n^{-1} \sum_{i=1}^{n} 1_{\left\{X_{i} \leq F^{-1}(p)\right\}}=n^{-1} \sum_{i=1}^{n} 1_{\left\{F\left(X_{i}\right) \leq p\right\}} \stackrel{d}{=} n^{-1} \sum_{i=1}^{n} 1_{\left\{U_{i} \leq p\right\}}
Fn{F−1(p)}=n−1i=1∑n1{Xi≤F−1(p)}=n−1i=1∑n1{F(Xi)≤p}=dn−1i=1∑n1{Ui≤p}
,
U
i
∼
i
.
i
.
d
.
Unifrom
(
0
,
1
)
U_{i}\stackrel{i.i.d.}{\sim} {\text { Unifrom }}(0,1)
Ui∼i.i.d. Unifrom (0,1)
故
K
S
n
=
d
sup
0
≤
p
≤
1
∣
n
−
1
∑
i
=
1
n
1
{
U
i
≤
p
}
−
p
∣
=
max
{
max
j
=
0
,
1
,
…
,
n
(
j
n
−
U
(
j
)
)
,
max
j
=
1
,
2
,
…
,
n
+
1
(
U
(
j
)
−
j
−
1
n
)
}
=
max
j
=
1
,
…
,
n
max
{
j
n
−
U
(
j
)
,
U
(
j
)
−
j
−
1
n
}
\begin{aligned} \mathrm{KS}_{n} & \stackrel{d}{=} \sup _{0 \leq p \leq 1}\left|n^{-1} \sum_{i=1}^{n} 1_{\left\{U_{i} \leq p\right\}}-p\right| \\ &=\max \left\{\max _{j=0,1, \ldots, n}\left(\frac{j}{n}-U_{(j)}\right), \max _{j=1,2, \ldots, n+1}\left(U_{(j)}-\frac{j-1}{n}\right)\right\} \\ &=\max _{j=1, \ldots, n} \max \left\{\frac{j}{n}-U_{(j)}, U_{(j)}-\frac{j-1}{n}\right\} \end{aligned}
KSn=d0≤p≤1sup∣∣∣∣∣n−1i=1∑n1{Ui≤p}−p∣∣∣∣∣=max{j=0,1,…,nmax(nj−U(j)),j=1,2,…,n+1max(U(j)−nj−1)}=j=1,…,nmaxmax{nj−U(j),U(j)−nj−1}
其中
U
(
0
)
=
0
U_{(0)}=0
U(0)=0 and
U
(
n
+
1
)
=
1
U_{(n+1)}=1
U(n+1)=1
则 F n F_n Fn的分布与 F F F无关
由此可以构造分布函数的置信区间与假设检验。