极限理论总结05：经验分布函数（ECDF）与KSn统计量

最新推荐文章于 2024-11-28 20:52:54 发布

子渔渔

最新推荐文章于 2024-11-28 20:52:54 发布

阅读量2.9k

点赞数

分类专栏：极限理论课程总结文章标签：概率论

本文链接：https://blog.csdn.net/lanlingmuzichun/article/details/120406648

版权

极限理论课程总结专栏收录该内容

8 篇文章

订阅专栏

文章目录

07.经验分布函数

07.经验分布函数

设 $X_{1}, X_{2}, \ldots, X_{n}\stackrel{i.i.d.}{\sim} F$ . 样本分布函数 $F_{n}$ 由n个观测值 $X_{i}$ 构造，每个 $X_i$ 被赋有相同的权重 $1 / n$ , 定义为
$F_{n}(x)=\frac{1}{n} \sum_{i=1}^{n} 1_{\left\{X_{i} \leq x\right\}}, x \in \mathbb{R}$
注：对于多元情况，不等号为逐分量成立。

样本分布函数也称为经验分布函数（ECDF），具有两重性：

对固定样本 $X_i$ ， $F_n(\cdot)$ 是累积分布函数
对于固定的 $x$ ， $F_n(x)$ 是随机变量

无偏性、收敛性与渐进正态性

定理7.1给出了经验分布函数的无偏性，收敛性与渐进正态性。

定理7.1：对固定 $\in \mathbb{R}$

$\mathrm{E}\left\{F_{n}(x)\right\}=F(x)$ ， $\operatorname{Var}\left\{F_{n}(x)\right\}=\frac{F(x)\{1-F(x)\}}{n}$

$F_{n}(x) \stackrel{2 n d}{\rightarrow} F(x)$ ，则有 $F_{n}(x) \stackrel{p}{\rightarrow} F(x)$

$F_{n}(x) \stackrel{w p 1}{\rightarrow} F(x)$

$\left[F_{n}(x)-\mathrm{E}\left\{F_{n}(x)\right\}\right] / \sqrt{\operatorname{Var}\left\{F_{n}(x)\right\}} \stackrel{d}{\rightarrow} N(0,1)$

注：较为常用的， $F_{n}(x) \sim \operatorname{Binomial}(n, F(x))$

KSn统计量

定义 Kolmogorov-Smirnov 距离:
$\mathrm{KS}_{n}=\sup _{\boldsymbol{x}}\left\|F_{n}(\boldsymbol{x})-F(\boldsymbol{x})\right\|$
为用来衡量 $F_n$ 与 $F$ 间相似程度的统计量。该统计量具有分布无关性。

定理7.2（Dvoretzky–Kiefer–Wolfowitz, 1956）：令 $F$ 为定义在 $\mathbb{R}$ 的函数. 则存在常数 $C$ (与 $F$ 无关) 使得
$\mathrm{P}\left(\mathrm{KS}_{n}>\epsilon\right) \leq C \exp \left(-2 n \epsilon^{2}\right), \epsilon>0$
对任意 $\ldots$ 均成立

注：由7.2可得 $\mathrm{P}\left(\sqrt{n} \mathrm{KS}_{n}>\epsilon\right) \leq C \exp \left(-2 \epsilon^{2}\right)$ ，因此 $\sqrt{n} \mathrm{KS}_{n}=O_{p}(1)$

推论：

令 $C$ 为DKW 不等式中的常数. 则对任意的 $\epsilon>0$ ,有
$\mathrm{P}\left(\sup _{m \geq n} \mathrm{KS}_{m}>\epsilon\right) \leq \frac{C D_{\epsilon}^{n}}{1-D_{\epsilon}}$
其中 $D_{\epsilon}=\exp \left(-2 \epsilon^{2}\right)$ .

由此可以得到Glivenko-Cantelli定理。

Glivenko-Cantelli定理

定理7.3（Glivenko-Cantelli）：设 $F$ 为定义在 $\mathbb{R}^{d}$ （ $\geq 1$ ）上的累积分布函数，则有 $\mathrm{KS}_{n} \stackrel{w p 1}{\rightarrow} 0$

进一步的，由Kolmogorov定理可以得出 $KS_n$ 的渐进分布为布朗桥

定理7.4（Kolmogorov）：令 $\mathrm{F}$ 定义在 $\mathbb{R}$ 上并且连续，则：
$\mathrm{P}\left(\sqrt{n} \mathrm{KS}_{n} \leq \epsilon\right) \rightarrow 1-2 \sum_{i=1}^{\infty}(-1)^{i+1} \exp \left(-2 i^{2} \epsilon^{2}\right), \epsilon>0$

定理7.5给出 $F_n$ 的精确分布具有（ $X_i$ ）分布无关性

定理7.5：令 $\mathrm{F}$ 定义在 $\mathbb{R}$ 上并且连续。则 $\sqrt n KS_n$ 是分布无关的，它的精确分布与 $F$ 无关。

证明：

定义 $F^{-1}(p)=\inf \{x: F(x) \geq p\}$ .则有对任意 $\in(0,1)$ 和 $\in \mathbb{R}, F^{-1}(p) \leq x$ $\iff$ $\leq F(x)$

则有
$\begin{aligned} \sup _{x}\left|F_{n}(x)-F(x)\right| &=\sup _{0 \leq p \leq 1}\left|F_{n}\left\{F^{-1}(p)\right\}-F\left\{F^{-1}(p)\right\}\right| \\ &=\sup _{0 \leq p \leq 1}\left|F_{n}\left\{F^{-1}(p)\right\}-p\right| \end{aligned}$
其中
$F_{n}\left\{F^{-1}(p)\right\}=n^{-1} \sum_{i=1}^{n} 1_{\left\{X_{i} \leq F^{-1}(p)\right\}}=n^{-1} \sum_{i=1}^{n} 1_{\left\{F\left(X_{i}\right) \leq p\right\}} \stackrel{d}{=} n^{-1} \sum_{i=1}^{n} 1_{\left\{U_{i} \leq p\right\}}$
， $U_{i}\stackrel{i.i.d.}{\sim} {\text { Unifrom }}(0,1)$

故
$\begin{aligned} \mathrm{KS}_{n} & \stackrel{d}{=} \sup _{0 \leq p \leq 1}\left|n^{-1} \sum_{i=1}^{n} 1_{\left\{U_{i} \leq p\right\}}-p\right| \\ &=\max \left\{\max _{j=0,1, \ldots, n}\left(\frac{j}{n}-U_{(j)}\right), \max _{j=1,2, \ldots, n+1}\left(U_{(j)}-\frac{j-1}{n}\right)\right\} \\ &=\max _{j=1, \ldots, n} \max \left\{\frac{j}{n}-U_{(j)}, U_{(j)}-\frac{j-1}{n}\right\} \end{aligned}$
其中 $U_{(0)}=0$ and $U_{(n+1)}=1$