极限理论总结05:经验分布函数(ECDF)与KSn统计量

07.经验分布函数

X 1 , X 2 , … , X n ∼ i . i . d . F X_{1}, X_{2}, \ldots, X_{n}\stackrel{i.i.d.}{\sim} F X1,X2,,Xni.i.d.F. 样本分布函数 F n F_{n} Fn 由n个观测值 X i X_{i} Xi构造,每个 X i X_i Xi被赋有相同的权重 1 / n 1 / n 1/n, 定义为
F n ( x ) = 1 n ∑ i = 1 n 1 { X i ≤ x } , x ∈ R F_{n}(x)=\frac{1}{n} \sum_{i=1}^{n} 1_{\left\{X_{i} \leq x\right\}}, x \in \mathbb{R} Fn(x)=n1i=1n1{Xix},xR
注:对于多元情况,不等号为逐分量成立。

样本分布函数也称为经验分布函数(ECDF),具有两重性:

  • 对固定样本 X i X_i Xi F n ( ⋅ ) F_n(\cdot) Fn()是累积分布函数
  • 对于固定的 x x x F n ( x ) F_n(x) Fn(x)是随机变量

无偏性、收敛性与渐进正态性

定理7.1给出了经验分布函数的无偏性,收敛性与渐进正态性。

定理7.1:对固定 x ∈ R x \in \mathbb{R} xR

  • E { F n ( x ) } = F ( x ) \mathrm{E}\left\{F_{n}(x)\right\}=F(x) E{Fn(x)}=F(x) Var ⁡ { F n ( x ) } = F ( x ) { 1 − F ( x ) } n \operatorname{Var}\left\{F_{n}(x)\right\}=\frac{F(x)\{1-F(x)\}}{n} Var{Fn(x)}=nF(x){1F(x)}

  • F n ( x ) → 2 n d F ( x ) F_{n}(x) \stackrel{2 n d}{\rightarrow} F(x) Fn(x)2ndF(x) ,则有 F n ( x ) → p F ( x ) F_{n}(x) \stackrel{p}{\rightarrow} F(x) Fn(x)pF(x)

  • F n ( x ) → w p 1 F ( x ) F_{n}(x) \stackrel{w p 1}{\rightarrow} F(x) Fn(x)wp1F(x)

  • [ F n ( x ) − E { F n ( x ) } ] / Var ⁡ { F n ( x ) } → d N ( 0 , 1 ) \left[F_{n}(x)-\mathrm{E}\left\{F_{n}(x)\right\}\right] / \sqrt{\operatorname{Var}\left\{F_{n}(x)\right\}} \stackrel{d}{\rightarrow} N(0,1) [Fn(x)E{Fn(x)}]/Var{Fn(x)} dN(0,1)

注:较为常用的, n F n ( x ) ∼ Binomial ⁡ ( n , F ( x ) ) n F_{n}(x) \sim \operatorname{Binomial}(n, F(x)) nFn(x)Binomial(n,F(x))

KSn统计量

定义 Kolmogorov-Smirnov 距离:
K S n = sup ⁡ x ∥ F n ( x ) − F ( x ) ∥ \mathrm{KS}_{n}=\sup _{\boldsymbol{x}}\left\|F_{n}(\boldsymbol{x})-F(\boldsymbol{x})\right\| KSn=xsupFn(x)F(x)
为用来衡量 F n F_n Fn F F F间相似程度的统计量。该统计量具有分布无关性。

定理7.2(Dvoretzky–Kiefer–Wolfowitz, 1956):令 F F F 为定义在 R \mathbb{R} R的函数. 则存在常数 C C C (与 F F F 无关) 使得
P ( K S n > ϵ ) ≤ C exp ⁡ ( − 2 n ϵ 2 ) , ϵ > 0 \mathrm{P}\left(\mathrm{KS}_{n}>\epsilon\right) \leq C \exp \left(-2 n \epsilon^{2}\right), \epsilon>0 P(KSn>ϵ)Cexp(2nϵ2),ϵ>0
对任意 n = 1 , 2 , … n=1,2, \ldots n=1,2,均成立

注:由7.2可得 P ( n K S n > ϵ ) ≤ C exp ⁡ ( − 2 ϵ 2 ) \mathrm{P}\left(\sqrt{n} \mathrm{KS}_{n}>\epsilon\right) \leq C \exp \left(-2 \epsilon^{2}\right) P(n KSn>ϵ)Cexp(2ϵ2),因此 n K S n = O p ( 1 ) \sqrt{n} \mathrm{KS}_{n}=O_{p}(1) n KSn=Op(1)

推论

C C C 为DKW 不等式中的常数. 则对任意的 ϵ > 0 \epsilon>0 ϵ>0,有
P ( sup ⁡ m ≥ n K S m > ϵ ) ≤ C D ϵ n 1 − D ϵ \mathrm{P}\left(\sup _{m \geq n} \mathrm{KS}_{m}>\epsilon\right) \leq \frac{C D_{\epsilon}^{n}}{1-D_{\epsilon}} P(mnsupKSm>ϵ)1DϵCDϵn
其中 D ϵ = exp ⁡ ( − 2 ϵ 2 ) D_{\epsilon}=\exp \left(-2 \epsilon^{2}\right) Dϵ=exp(2ϵ2).

由此可以得到Glivenko-Cantelli定理。

Glivenko-Cantelli定理

定理7.3(Glivenko-Cantelli):设 F F F 为定义在 R d \mathbb{R}^{d} Rd d ≥ 1 d \geq 1 d1)上的累积分布函数,则有 K S n → w p 1 0 \mathrm{KS}_{n} \stackrel{w p 1}{\rightarrow} 0 KSnwp10

进一步的,由Kolmogorov定理可以得出 K S n KS_n KSn的渐进分布为布朗桥

定理7.4(Kolmogorov):令 F \mathrm{F} F 定义在 R \mathbb{R} R 上并且连续,则:
P ( n K S n ≤ ϵ ) → 1 − 2 ∑ i = 1 ∞ ( − 1 ) i + 1 exp ⁡ ( − 2 i 2 ϵ 2 ) , ϵ > 0 \mathrm{P}\left(\sqrt{n} \mathrm{KS}_{n} \leq \epsilon\right) \rightarrow 1-2 \sum_{i=1}^{\infty}(-1)^{i+1} \exp \left(-2 i^{2} \epsilon^{2}\right), \epsilon>0 P(n KSnϵ)12i=1(1)i+1exp(2i2ϵ2),ϵ>0

定理7.5给出 F n F_n Fn的精确分布具有( X i X_i Xi)分布无关性

定理7.5:令 F \mathrm{F} F 定义在 R \mathbb{R} R 上并且连续。则 n K S n \sqrt n KS_n n KSn是分布无关的,它的精确分布与 F F F无关。

证明:

定义 F − 1 ( p ) = inf ⁡ { x : F ( x ) ≥ p } F^{-1}(p)=\inf \{x: F(x) \geq p\} F1(p)=inf{x:F(x)p}.则有对任意 p ∈ ( 0 , 1 ) p \in(0,1) p(0,1) x ∈ R , F − 1 ( p ) ≤ x x \in \mathbb{R}, F^{-1}(p) \leq x xR,F1(p)x    ⟺    \iff p ≤ F ( x ) p \leq F(x) pF(x)

则有
sup ⁡ x ∣ F n ( x ) − F ( x ) ∣ = sup ⁡ 0 ≤ p ≤ 1 ∣ F n { F − 1 ( p ) } − F { F − 1 ( p ) } ∣ = sup ⁡ 0 ≤ p ≤ 1 ∣ F n { F − 1 ( p ) } − p ∣ \begin{aligned} \sup _{x}\left|F_{n}(x)-F(x)\right| &=\sup _{0 \leq p \leq 1}\left|F_{n}\left\{F^{-1}(p)\right\}-F\left\{F^{-1}(p)\right\}\right| \\ &=\sup _{0 \leq p \leq 1}\left|F_{n}\left\{F^{-1}(p)\right\}-p\right| \end{aligned} xsupFn(x)F(x)=0p1supFn{F1(p)}F{F1(p)}=0p1supFn{F1(p)}p
其中
F n { F − 1 ( p ) } = n − 1 ∑ i = 1 n 1 { X i ≤ F − 1 ( p ) } = n − 1 ∑ i = 1 n 1 { F ( X i ) ≤ p } = d n − 1 ∑ i = 1 n 1 { U i ≤ p } F_{n}\left\{F^{-1}(p)\right\}=n^{-1} \sum_{i=1}^{n} 1_{\left\{X_{i} \leq F^{-1}(p)\right\}}=n^{-1} \sum_{i=1}^{n} 1_{\left\{F\left(X_{i}\right) \leq p\right\}} \stackrel{d}{=} n^{-1} \sum_{i=1}^{n} 1_{\left\{U_{i} \leq p\right\}} Fn{F1(p)}=n1i=1n1{XiF1(p)}=n1i=1n1{F(Xi)p}=dn1i=1n1{Uip}
U i ∼ i . i . d .  Unifrom  ( 0 , 1 ) U_{i}\stackrel{i.i.d.}{\sim} {\text { Unifrom }}(0,1) Uii.i.d. Unifrom (0,1)


K S n = d sup ⁡ 0 ≤ p ≤ 1 ∣ n − 1 ∑ i = 1 n 1 { U i ≤ p } − p ∣ = max ⁡ { max ⁡ j = 0 , 1 , … , n ( j n − U ( j ) ) , max ⁡ j = 1 , 2 , … , n + 1 ( U ( j ) − j − 1 n ) } = max ⁡ j = 1 , … , n max ⁡ { j n − U ( j ) , U ( j ) − j − 1 n } \begin{aligned} \mathrm{KS}_{n} & \stackrel{d}{=} \sup _{0 \leq p \leq 1}\left|n^{-1} \sum_{i=1}^{n} 1_{\left\{U_{i} \leq p\right\}}-p\right| \\ &=\max \left\{\max _{j=0,1, \ldots, n}\left(\frac{j}{n}-U_{(j)}\right), \max _{j=1,2, \ldots, n+1}\left(U_{(j)}-\frac{j-1}{n}\right)\right\} \\ &=\max _{j=1, \ldots, n} \max \left\{\frac{j}{n}-U_{(j)}, U_{(j)}-\frac{j-1}{n}\right\} \end{aligned} KSn=d0p1supn1i=1n1{Uip}p=max{j=0,1,,nmax(njU(j)),j=1,2,,n+1max(U(j)nj1)}=j=1,,nmaxmax{njU(j),U(j)nj1}
其中 U ( 0 ) = 0 U_{(0)}=0 U(0)=0 and U ( n + 1 ) = 1 U_{(n+1)}=1 U(n+1)=1

F n F_n Fn的分布与 F F F无关

由此可以构造分布函数的置信区间与假设检验。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值