[课程笔记]非参数统计Chapter 1 一些基本概念

最新推荐文章于 2024-11-07 16:28:09 发布

子渔渔

最新推荐文章于 2024-11-07 16:28:09 发布

阅读量1.4k

点赞数

CC 4.0 BY-SA版权

分类专栏：笔记非参数统计课程笔记

本文链接：https://blog.csdn.net/lanlingmuzichun/article/details/114642170

笔记同时被 2 个专栏收录

9 篇文章

订阅专栏

非参数统计课程笔记

2 篇文章

订阅专栏

本文介绍了非参数统计的基础概念，包括次序统计量、分位数及其样本估计、秩检验统计量、U统计量等内容，并探讨了它们在假设检验中的应用。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

课程笔记：非参数统计
参考教材：《非参数统计（第二版）》，王星,褚挺进,清华大学出版社
《应用非参数统计》薛留根，科学出版社

文章目录

Chapter1 基本概念

Chapter1 基本概念

次序统计量

定义 $\quad$ 假设总体 $X$ 有容量为 $n$ 的样本 $X_{1}, X_{2}, \cdots, X_{n},$ 将 $X_{1}, X_{2}, \cdots, X_{n}$ 按从小到大排序后生成统计量
$X_{(1)} \leqslant X_{(2)} \leqslant \cdots \leqslant X_{(n)}$
则称统计量 $\left\{X_{(1)}, X_{(2)}, \cdots, X_{(n)}\right\}$ 为顺序统计量. 其中 $X_{(i)}$ 是第 $i$ 个顺序统计量. 顺序统计量是非参数统计的理论基础之一, 许多非参数统计量的性质与顺序统计量有关。

如果总体分布函数为 $F (x),$ 则贝序统计呈 $X_{(r)}$ 的分布函数为

$F_{r}(x)=P\left(X_{(r)} \leqslant x\right)=P\left(\text { 至少 } r \text { 个 } X_{i} \text { 小于或等于 } x\right) =\sum_{i=r}^{n}\left(\begin{array}{l} n \\ i \end{array}\right) F^{i}(x)[1-F(x)]^{n-i} .$

如果总体分布密度 $f (x)$ 存在, 则顺序统计量 $X_{(r)}$ 的密度函数为:

$f_{r}(x)=\frac{n !}{(r-1) !(n-r) !} F^{r-1}(x) f(x)[1-F(x)]^{n-r}$

分位数

定义 $\quad$ 假定 $X$ 服从概率密度为 $f (x)$ 的分布, 令 $0 < p < 1,$ 满足等式 $F\left(m_{p}^{-}\right)=P\left(X<m_{p}\right) \leqslant p, F\left(m_{p} \right)=P\left(X \leqslant m_{p}\right) \geqslant p$ 唯一的根 $m_{p}$ 称为分布 $F (x)$
的 $p$ 分位数.

例如, 中位数可以定义为 $P\left(X<m_{0.5}\right) \leqslant 1 / 2, P\left(X \leqslant m_{0.5}\right) \geqslant 1 / 2 .$ 分布的 $3 / 4$
分位数定义为 $P\left(X<m_{0.75}\right) \leqslant 0.75, P\left(X \leqslant m_{0.75}\right) \geqslant 0.75 .$

这样定义的 $p$ 分位数不唯一. 易证: 如果分布的 $p$ 分位数不唯一, 则它充满一个有界闭区间.

为了解决唯一性问题, 统计学家又把总体的 $p$ 分位数定义为
$\xi_{p}=\inf \{x: F(x) \geqslant p\}, \quad p \in(0,1)$
当 $p = 1 / 2$ 时, $\xi_{1 / 2}$ 为分布的中位数.

样本分位数

定义 $\quad$ 设 $X_{1}, \cdots, X_{n}$ 是来自总体 $F (x)$ 的独立同分布样本, 其经验分布函数记为 $F_{n}(x)=n^{-1} \sum_{i=1}^{n} I\left(X_{i} \leqslant x\right),$ 则称
$\hat{\xi}_{n, p}=\inf \left\{x: F_{n}(x) \geqslant p\right\}$
为样本的 $p$ 分位数.

对于 $\hat{\xi}_{n, p},$ 有下面两个渐近性质.

定理 $1.2.1\quad$ 设总体分布 $F (x)$ 的密度函数 $f (x)$ 在 $\xi_{p}$ 处连续, 且 $f\left(\xi_{p}\right)>0,$ 则样本分位数 $\hat{\xi}_{n, p}$ 有渐近正态分布 $N\left(\xi_{p}, p(1-p) /\left[n f^{2}\left(\xi_{p}\right)\right]\right) .$

定理 $\quad$ 对 $\xi_{p}$ 是满足 $\geqslant p, F(x-0) \leqslant p$ 的总体 $F (x)$ 的 $p$ 分位数. 如果 $\xi_{p}$ 是唯一的, 则当 $\rightarrow \infty$ 时 $\hat{\xi}_{n, p} \rightarrow \xi_{p}, \text { a.s. } .$

分位数区间估计

大样本区间估计
在大样本情形下, 我们可以利用样本 $p$ 分位数 $\hat{\xi}_{n, p}$ 的渐近正态性构造置信区
间. 给定置信水平 $\alpha>0,$ 用 $z_{1-\alpha / 2}$ 表示满足 $\Phi\left(z_{1-\alpha / 2}\right)=1-\alpha / 2$ 的数, 它是标准正态分布的 $1-\alpha / 2$ 分位数. 由定理 1.2 .1 知
$\lim _{n \rightarrow \infty} P\left\{\left|\hat{\xi}_{n, p}-\xi_{p}\right| \leqslant \frac{z_{1-\alpha / 2} \sqrt{p(1-p)}}{\sqrt{n} f\left(\xi_{p}\right)}\right\}=1-\alpha$
上式尚不能直接用于区间估计, 因为其中 $f(\cdot)$ 与 $\xi_{p}$ 皆未知. $\xi_{p}$ 可用 $\hat{\xi}_{n, p}$ 估计, 至于 $f(\cdot),$ 需用概率密度的非参数估计法估计之. 以 $\hat{f}_{n}(\cdot)$ 记 $f(\cdot)$ 的一个估计, 如果 $\hat{f}_{n}(\cdot)$ 有相合性, 则利用上式有
$\lim _{n \rightarrow \infty} P\left\{\left|\hat{\xi}_{n, p}-\xi_{p}\right| \leqslant \frac{z_{1-\alpha / 2} \sqrt{p(1-p)}}{\sqrt{n} \hat{f}_{n}\left(\hat{\xi}_{n, p}\right)}\right\}=1-\alpha$
上式表明, $\hat{\xi}_{n, p} \pm z_{1-\alpha / 2} \sqrt{p(1-p)} /\left[\sqrt{n} \hat{f}_{n}\left(\hat{\xi}_{n, p}\right)\right]$ 是 $\xi_{p}$ 的一个区间估计, 其渐近置信
水平为 $1-\alpha,$ 这个估计只有在样本容量 $n$ 相当大时才有用, 因为 $n$ 太小时, 概率密度 $f(\cdot)$ 不易估计准确.
小样本区间估计
设 $X_{1}, \cdots, X_{n}$ 是来自连续分布 $F (x)$ 的一个样本. $X_{(1)} \leqslant \cdots \leqslant X_{(n)}$ 为样本次序统计量. 下面求 $p$ 分位数 $\xi_{p}$ 的形如 $\left[X_{(r)}, X_{(s)}\right]$ 的置信区间, 即求最大整数 $r$ 和最小整数 $s,$ 使得
$P\left\{X_{(r)} \leqslant \xi_{p} \leqslant X_{(s)}\right\} \geqslant 1-\alpha$
为此, 记 $Y=\sum_{i=1}^{n} I\left(X_{i} \leqslant \xi_{p}\right),$ 显然 $Y$ 服从二项分布 $B (n, p),$ 其中 $p=P\left\{X_{i} \leqslant \xi_{p}\right\} .$

注意到事件 $\left\{X_{(r)} \leqslant \xi_{p} \leqslant X_{(s)}\right\}$ 等价于事件“样本 $X_{1}, \cdots, X_{n}$ 中小于等于 $\xi_{p}$ 的个数至少火 $r$ 且至多火 $s$ ", 即等价于事件 $\{r \leqslant Y \leqslant s\} .$ 囚此,
$\begin{aligned} & P\left\{X_{(r)} \leqslant \xi_{p} \leqslant X_{(s)}\right\} \\ =& P\{r \leqslant Y \leqslant s\}=P\{Y \leqslant s\}-P\{Y<r\} \\ =& \sum_{i=0}^{s}\left(\begin{array}{l} n \\ i \end{array}\right) p^{i}(1-p)^{n-i}-\sum_{i=0}^{r-1}\left(\begin{array}{l} n \\ i \end{array}\right) p^{i}(1-p)^{n-i} . \end{aligned}$
在实际工作中, 我们可以选取最大的 $r$ 和最小的 $s,$ 使得
$\begin{array}{l} \sum_{i=0}^{r-1}\left(\begin{array}{l} n \\ i \end{array}\right) p^{i}(1-p)^{n-i} \leqslant \frac{\alpha}{2} \\ \sum_{i=0}^{s}\left(\begin{array}{l} n \\ i \end{array}\right) p^{i}(1-p)^{n-i} \geqslant 1-\frac{\alpha}{2} . \end{array}$
因此
$P\left\{X_{(r)} \leqslant \xi_{p} \leqslant X_{(s)}\right\} \geqslant 1-\frac{\alpha}{2}-\frac{\alpha}{2}=1-\alpha$

秩检验统计量

无节点

设样本 $X_{1}, X_{2}, \ldots, X_{n}$ 是取自总体 $X$ 的简单随机样本， $X_{1}, X_{2}, \ldots, X_{n}$ 中不超过 $X_{i}$ 的个数
$R_{i}=\sum_{j=1}^{n} I\left(X_{j} \leq X_{i}\right)$
称 $R_{i}$ 为 $X_{i}$ 的秩, $X_{i}$ 是第 $R_{i}$ 个顺序统计量, $X_{\left(R_{i}\right)}=X_{i \circ}$ 令 $R=\left(R_{1}, \ldots, R_{n}\right), R$ 是由样本产生的统计量称为秩统计量。

定理 $1.3\quad$ 对于简单随机样本, $R=\left(R_{1}, R_{2}, \cdots, R_{n}\right)$ 寸可組取 $\cdots, n)$ 脉任意 $n!$ 个排列之一, $R$ 在由 $\cdots, n)$ 的所有可能的排列组成的空间上是均匀分付, 即: 对 $\cdots, n)$ 的任一排列 $\left(i_{1}, i_{2}, \cdots, i_{n}\right)$ 有
$P\left(R=\left(i_{1}, i_{2}, \cdots, i_{n}\right)\right)=\frac{1}{n !}$

上面定理 1.3 给出的是 $R_{1}, R_{2}, \cdots, R_{n}$ 联合分布. 类似地, 每一个 $R_{i}$ 在空间 $\{1,2, \cdots, n\}$ 上有均匀分布: 每一对 $\left(R_{i}, R_{j}\right)$ 在空间 $\{(r, s): r, s=1,2, \cdots, n ; r \neq s\}$
上有均匀分布. 以推论的形式表示如下。
推论 $\quad$ 对于简单随机样本, 对任意 $\cdots, n ; r \neq s$ 及 $\neq j,$
$P\left(R_{i}=r\right)=\frac{1}{n}, \quad P\left(R_{i}=r, R_{j}=s\right)=\frac{1}{n(n-1)}$
推论 1.3 对于简单随机样本,
$\begin{aligned} E\left(R_{i}\right) &=\frac{n+1}{2} \\ \operatorname{var}\left(R_{i}\right) &=\frac{(n+1)(n-1)}{12} \\ \operatorname{cov}\left(R_{i}, R_{j}\right) &=-\frac{n+1}{12} \end{aligned}$

有节点

在许多情况下, 数据中有重复数据, 称数据中存在结 (tie). 结的定义如下.
定义 : 设样本 $X_{1}, X_{2}, \cdots, X_{n}$ 取自总体 $X$ 的简单随机抽样, 将数据排序后, 相同的数据点组成一个“结”，称重复数据的个数为结长. 假设有样本量为 7 的数据:
$\begin{array}{lllllll} 3.8 & 3.2 & 1.2 & 1.2 & 3.4 & 3.2 & 3.2 \end{array}$
其中有 4 个结, $x_{2}=x_{6}=x_{7}=3.2,$ 结长 $3 ; x_{3}=x_{4}=1.2,$ 结长 $2 ; x_{1}=3.8$ 和 $x_{5}=$ 3.4 均结长都为 $1 .$ 如果有重复数据, 则将数据从小到大排序后, $\left(R_{1}, R_{2}\right)=(1,2),$ 也可以等于 $(2, 1),$ 这样秩就不唯一。一般常采用秩平均方法处理有结数据的秩.

定义 : 将样本 $X_{1}, X_{2}, \cdots, X_{n}$ 从小到大排序后, 如果 $X_{(1)}=\cdots=X_{\left(\tau_{1}\right)}<$
$X_{\left(\tau_{1}+1\right)}=\cdots=X_{\left(\tau_{1}+\tau_{2}\right)}<\cdots<X_{\left(\tau_{1}+\cdots+\tau_{g-1}\right)}=\cdots=X_{\left(\tau_{1}+\cdots+\tau_{g}\right)},$ 其中

是样本中结的个数, $\tau_{i}$ 是第 $i$ 个结的长度, $\left(\tau_{1}, \tau_{2}, \cdots, \tau_{g}\right)$ 是 $g$ 个正整数, $\sum_{i=1}^{g} \tau_{i}=n,$ 称 $\left(\tau_{1}, \tau_{2}, \cdots, \tau_{g}\right)$ 为结统计量. 第 $i$ 组样本的秩都相同，是第 $i$ 组样本原秩的平均，如下所示:

$r_{i}=\frac{1}{\tau_{i}} \sum_{k=1}^{\tau_{i}}\left(\tau_{1}+\cdots+\tau_{i-1}+k\right)=\tau_{1}+\cdots+\tau_{i-1}+\frac{1+\tau_{i}}{2}$

U统计量

单样本U统计量

定义: 设 $X_{1}, X_{2}, \cdots, X_{n}$ 取自分布族 $\mathcal{F}=\{F(\theta), \theta \in \Theta\},$ 如果待估参数 $\theta$ 存在样本量为 $k$ 的无偏估计量 $h\left(X_{1}, X_{2}, \cdots, X_{k}\right), k<n,$ 即满足

$h\left(X_{1}, X_{2}, \cdots, X_{k}\right)=\theta, \quad \forall \theta \in \theta$
使上式成立的最小的样本量为 $k,$ 则称参数 $\theta$ 是 $k$ 可估诊数. 此时 $h\left(X_{1}, X_{2}, \cdots, X_{k}\right)$ 称为参数 $\theta$ 的核 (kernel).

定义:设 $X_{1}, X_{2}, \cdots, X_{n}$ 取自分布族 $\mathcal{F}=\{F(\theta), \theta \in \Theta\}$ 的样本, 可估参
数 $\theta$ 存在样本量为 $k$ 均无偏估计盒 $h\left(X_{1}, X_{2}, \cdots, X_{k}\right), \theta$ 有对称核 $h^{*}\left(X_{1}, X_{2}, \cdots,\right.$ $\left.X_{k}\right),$ 则参数 $\theta$ 的 $U$ 统计量如下定义:

$U\left(X_{1}, X_{2}, \cdots, X_{n}\right)=\frac{1}{\left(\begin{array}{l} n \\ k \end{array}\right)} \sum_{\left(i_{1}, i_{2}, \cdots, i_{k}\right)} h^{*}\left(X_{i_{1}}, X_{i_{2}}, \cdots, X_{i_{k}}\right)$
其中 $\sum_{\left(i_{1}, i_{2}, \cdots, i_{k}\right)}$ 表示对 $\{1,2, \cdots, n\}$ 中所有可能的 $k$ 个数的组合求和.

定理 : 设 $X_{1}, X_{2}, \cdots, X_{n}$ 是取自分布族 $\mathcal{F}=\{F(\theta), \theta \in \Theta\}$ 的简单随机样本, $\theta$ 是 $k$ 可估参数, $U\left(X_{1}, X_{2}, \cdots, X_{n}\right)$ 是 $\theta$ 的 $U$ 统计量, 它的核是 $h\left(X_{1}, X_{2}, \cdots,\right.$ $X_{k},$ 有

$E\left(U\left(X_{1}, X_{2}, \cdots, X_{n}\right)\right)=\theta$

如果令 $\theta=E\left[h\left(X_{1}, \cdots, X_{m}\right)\right],$ 则 $E\left(U_{n}\right)=\theta .$ 为简化 $U$ 统计量的方差的计算, 不妨假设 $\theta=0,$ 否则，只需以 $h-\theta$ 代 $h .$ 对 $\cdots, m,$ 令
$h_{c}\left(x_{1}, \cdots, x_{c}\right)=E\left[h\left(X_{1}, \cdots, X_{m}\right) \mid X_{1}=x_{1}, \cdots, X_{c}=x_{c}\right]$
则由 $\theta=0,$ 有
$\begin{aligned} E\left[h_{c}\left(X_{1}, \cdots, X_{c}\right)\right] &=E\left\{E\left[h\left(X_{1}, \cdots, X_{m}\right) \mid X_{1}, \cdots, X_{c}\right]\right\} \\ &=E\left[h\left(X_{1}, \cdots, X_{m}\right)\right]=0 \end{aligned}$
记
$\sigma_{c}^{2}=\operatorname{var}\left(h_{c}\left(X_{1}, \cdots, X_{c}\right)\right), \quad c=1, \cdots, m$
容易看出: 如果假定 $h\left(X_{1}, \cdots, X_{m}\right)$ 的方差有限, 则 $\sigma_{c}^{2}<\infty, c=1, \cdots, m .$

方差为：

$\begin{aligned} \operatorname{var}\left(U_{n}\right) &=\left(\begin{array}{c} n \\ m \end{array}\right)^{-2} \sum_{c=1}^{m}\left(\begin{array}{c} n \\ m \end{array}\right)\left(\begin{array}{c} m \\ c \end{array}\right)\left(\begin{array}{c} n-m \\ m-c \end{array}\right) \sigma_{c}^{2} \\ &=\left(\begin{array}{c} n \\ m \end{array}\right)^{-1} \sum_{c=1}^{m}\left(\begin{array}{c} m \\ c \end{array}\right)\left(\begin{array}{c} n-m \\ m-c \end{array}\right) \sigma_{c}^{2} \end{aligned}$

$U$ 统计量具有很好的大样本性质， $U$ 统计量均方收敛到 $\theta,$ 从而 $U$ 统计量是 $\theta$ 的相合估计 (consistency); 极限分布是正态分布.
定理1.5：设 $X_{1}, X_{2}, \cdots, X_{n}$ 是取自分布族 $\mathcal{F}=\{F(\theta), \theta \in \Theta\}$ 的简单随机样本, $\theta$
是 $k$ 可估参数, $U\left(X_{1}, X_{2}, \cdots, X_{n}\right)$ 是 $\theta$ 的 $U$ 统计量, 它的核为 $h\left(X_{1}, X_{2}, \cdots, X_{k}\right),$ 有
$E\left[h\left(X_{1}, X_{2}, \cdots, X_{k}\right)\right]^{2}<\infty$
则
$\lim _{n \rightarrow \infty} \frac{n}{k^{2}} \operatorname{var}\left[U\left(X_{1}, X_{2}, \cdots, X_{n}\right)\right]=\zeta_{1}$
其中 $\zeta_{1}=\operatorname{cov}\left[h\left(X_{1}, X_{2}, \cdots, X_{k}\right), h\left(X_{1}, X_{k+1}, \cdots, X_{2 k-1}\right)\right]>0$

（ Hoeffding 定理) $\quad$ 设 $X_{1}, X_{2}, \cdots, X_{n}$ 是取自分布族 $\mathcal{F}=\{F(\theta), \theta \in$
$\Theta\}$ 仆简单随机样本, $\theta$ 是 $k$ 可估参数, $U\left(X_{1}, X_{2}, \cdots, X_{n}\right)$ 是 $\theta$ 的 $U$ 统计量，它约核是 $h\left(X_{1}, X_{2}, \cdots, X_{k}\right),$ 有
$E\left[h\left(X_{1}, X_{2}, \cdots, X_{k}\right)\right]^{2}<\infty$
当 $\zeta_{1}=\operatorname{cov}\left[h\left(X_{1}, X_{2}, \cdots, X_{k}\right), h\left(X_{1}, X_{k+1}, \cdots, X_{2 k-1}\right)\right]>0$ 时, 有
$\sqrt{n}\left[U\left(X_{1}, X_{2}, \cdots, X_{n}\right)-\theta\right] \rightarrow N\left(0, k^{2} \zeta_{1}\right)(n \rightarrow+\infty)$

两样本U统计量

定义：设 $X=\left\{X_{1}, X_{2}, \cdots, X_{n}\right\}, X_{1}, X_{2}, \cdots, X_{n}$ 独立同分布取自分布族 $\mathcal{F}, Y=\left\{Y_{1}, Y_{2}, \cdots, Y_{m}\right\}$ 独立同分布取自分布族 $\mathcal{G}, X$ 与 $Y$ 独立. 如果待估参数 $\theta \in \mathbf{F}=\{F, G\},$ 存在样本量分别为 $\leqslant n$ 和 $\leqslant m$ 的样本构成的估计量 $h\left(X_{1}, X_{2}, \cdots, X_{k}, Y_{1}, Y_{2}, \cdots, Y_{l}\right)$ 是 $\theta$ 的无偏估计, 即满足
$h\left(X_{1}, X_{2}, \cdots, X_{k}, Y_{1}, Y_{2}, \cdots, Y_{l}\right)=\theta, \quad \forall \theta \in \mathbf{F}$
上述关系成立的暖小的样本量为 $k, l,$ 则称参数 $\theta$ 是 $(k, l)$ 可估的, $h\left(X_{1}, X_{2}, \cdots, X_{k},\right.$ $\left.Y_{1}, Y_{2}, \cdots, Y_{l}\right)$ 称为参数 $\theta$ 的核 (kernel).

定义： $X=\left\{X_{1}, X_{2}, \cdots, X_{n}\right\}, X_{1}, X_{2}, \cdots, X_{n}$ 独立同分布取自分布族 $\mathcal{F}, Y=\left\{Y_{1}, Y_{2}, \cdots, Y_{m}\right\}$ 与 $X$ 独立同分布取自分布族 $\mathcal{G}, X$ 与 $Y$ 独立, $(k, l)$ 可估参数 $\theta$ 存在样本量分别为 $(k, l)$ 物对称无偏估计量 $h\left(X_{1}, X_{2}, \cdots, X_{k}, Y_{1}, Y_{2}, \cdots, Y_{l}\right),$
则参数 $\theta$ 的 $U$ 统计量如下定义:
$\begin{aligned} U\left(X_{1}, X_{2}, \cdots, X_{n}, Y_{1}, Y_{2}, \cdots, Y_{m}\right)=& \frac{1}{\left(\begin{array}{l} n \\ k \end{array}\right)\left(\begin{array}{c} m \\ l \end{array}\right)} \sum_{\left(i_{1}, i_{2}, \cdots, i_{k}\right)} \sum_{\left(j_{1}, j_{2}, \cdots, j_{l}\right)} \\ & h\left(X_{i_{1}}, X_{i_{2}}, \cdots, X_{i_{k}}, Y_{j_{1}}, Y_{j_{2}}, \cdots, Y_{j_{l}}\right) \end{aligned}$

设 $E\left[h\left(X_{1}, \cdots, X_{m_{1}} ; Y_{1}, \cdots, Y_{m_{2}}\right)\right]=\theta,$ 则 $E\left(U_{n_{1} n_{2}}\right)=\theta .$ 与单样本的情况相类似, 可以得到 $U$ 统计量的方差. 令
$\begin{aligned} & h_{c d}\left(x_{1}, \cdots, x_{c} ; y_{1}, \cdots, y_{d}\right) \\ =& E\left[h\left(X_{1}, \cdots, X_{m_{1}} ; Y_{1}, \cdots, Y_{m_{2}}\right) \mid X_{1}=x_{1}, \cdots, X_{c}=x_{c} ; Y_{1}=y_{1}, \cdots, Y_{d}=y_{d}\right] \\ \sigma_{c d}^{2}=\operatorname{var}\left(h_{c d}\left(X_{1}, \cdots, X_{c} ; Y_{1}, \cdots, Y_{d}\right)\right) \end{aligned}$
其中 $\cdots, m_{1} ; d=0,1, \cdots, m_{2}, \sigma_{00}^{2}=0 .$ 则
$\operatorname{var}\left(U_{n_{1} n_{2}}\right)=\frac{1}{\left(\begin{array}{c} n_{1} \\ m_{1} \end{array}\right)\left(\begin{array}{l} n_{2} \\ m_{2} \end{array}\right)} \sum_{c=0}^{m_{1}} \sum_{d=0}^{m_{2}}\left(\begin{array}{c} m_{1} \\ c \end{array}\right)\left(\begin{array}{c} n_{1}-m_{1} \\ m_{1}-c \end{array}\right)\left(\begin{array}{c} m_{2} \\ d \end{array}\right)\left(\begin{array}{c} n_{2}-m_{2} \\ m_{2}-d \end{array}\right) \sigma_{c d}^{2}$

定理：对于两样本 $U$ 统计量 $U_{n_{1} n_{2}},$ 如果核 $h\left(X_{1}, \cdots, X_{m_{1}} ; Y_{1}, \cdots, Y_{m_{2}}\right)$
的数学期望为 $\theta$ 且方差有限, $\sigma_{10}^{2}>0, \sigma_{01}^{2}>0, \sigma_{c d}^{2}$ 在式 $(2.2.2)$ 中定义，又记 $n=n_{1}+n_{2}$ 和
$\sigma_{n_{1} n_{2}}^{2}=n\left(\frac{m_{1}^{2}}{n_{1}} \sigma_{10}^{2}+\frac{m_{2}^{2}}{n_{2}} \sigma_{01}^{2}\right)$
则当 $n_{1} \rightarrow \infty, n_{2} \rightarrow \infty$ 时, 有
$\begin{array}{c} \frac{\sqrt{n}\left(U_{n_{1} n_{2}}-\theta\right)}{\sigma_{n_{1} n_{2}}} \stackrel{D}{\longrightarrow} N(0,1) \\ \frac{U_{n_{1} n_{2}}-\theta}{\sqrt{\operatorname{var}\left(U_{n_{1} n_{2}}\right)}} \stackrel{D}{\longrightarrow} N(0,1) \end{array}$

例：设总体 $X$ 服从分布函数为 $F (x)$ 的分布，Y 服从分布函数为 $G (x)$ 的分布, $X_{1}, X_{2}, \cdots, X_{n}$ 独立同分布取自分布族 $\mathcal{F},\left(Y_{1}, Y_{2}, \cdots, Y_{m}\right)$ 独立同分布取
自分布族 $\mathcal{G}, X$ 与 $Y$ 独立, 待估参数是 $\theta=P(X>Y),$ 考忘 $\theta$ 的 $U$ 统计量和它的性秒.
解 $\quad$ 给定 $i, j,$ 令
$h\left(X_{i}, Y_{j}\right)=I\left(X_{i}>Y_{j}\right)=\left\{\begin{array}{ll} 1, & X_{i}>Y_{i} \\ 0, & \text { 其他. } \end{array}\right.$
容易知道: $E\left(h\left(X_{i}, Y_{j}\right)\right)=\theta,$ 由 $h\left(X_{i}, Y_{j}\right)$ 张成的 $U$ 统计量定义为
$U_{n m}=\frac{1}{n m} \sum_{i=1}^{n} \sum_{j=1}^{m} I\left(X_{i}>Y_{j}\right)$
这个 $U$ 统计量将在第 2 章介绍，它是 Mann 和 Whitney 于 1947 年提出的, 称做 Mann-Whitney 统计量, 它是 $\theta=\mathrm{P}(X>Y)$ 的最小方差无偏估计. 如果我们要检验问题:
$H_{0}: F=G \leftrightarrow H_{1}: F \geqslant G$

则可知在零假设成立的情况下, $U$ 统计量的方差为
$\operatorname{var}\left(U_{n}\right)_{m}=\frac{n+m+1}{12 n m}$
贝此可知, 当 $\rightarrow \infty, m \rightarrow \infty$ 时,
$\sqrt{12 n m} \cdot \frac{U-0.5}{n+m} \stackrel{\mathcal{L}}{\rightarrow} N(0,1)$
故在大样本情况下检验的拒绝域为
$\geqslant \frac{1}{2}+\sqrt{\frac{n+m}{12 n m}} \cdot Z_{1-\alpha}$
这个检验称为 Mann-Whitney 检验.

假设检验

势

中 $\Theta_{0} \cap \Theta_{1}=\varnothing,$ 检验统计量为 $T_{n} .$ 拒绝零假设的概率, 也就是样本落入拒绝域 $W$ 的概率为检验的势, 记为
$g_{T_{n}}(\theta)=P\left(T_{n} \in W\right), \quad \theta \in \theta=\theta_{0} \cup \Theta_{1}$
当 $\theta \in \Theta_{0} \quad,$ 检验的势是犯第一类错误的概率，即显著性水平

当 $ \theta \in \Theta_{1} \quad,$ 检验的势是不犯第二类错误的概率,
一个有意义的检验, 当显著性水平给定时，检验的势函数应该越大越好。

无偏检验

定义：设 $W$ 表示一个检验的拒绝域, 对一般的假设检验问题, 如果
$\in W)\left\{\begin{array}{ll} \leqslant \alpha, & \theta \in \theta_{0} \\ \geqslant \alpha, & \theta \in \Theta_{1} \end{array}\right.$
则称该检验为无偏检验.

假设检验与置信区间的关系

以单变量位置参数为例，假设参数 $\theta$ 的估计量为 $\hat{\theta},$ 则可以用 $\hat{\theta}$ 构造 $\theta$ 的一个 $100(1-\alpha) \%$ :

$\left(\hat{\theta}-C_{\alpha}, \hat{\theta}+C_{\alpha}\right)$

如果猜想的 $\theta_{0}$ 不在该区间内，则可以拒绝零假设，认为数据所支持的总体与猜想的总体不一致
如果 $\theta_{0}$ 在该区间内，则表示不能拒绝零假设，但是这没有表明 $\theta$ 就是 $\theta_{0}$
置信区间和假设检验虽然对总体推断的角度不同，但是推断的结果却可能是一致的

经验分布

随机变量 $\in \mathbb{R}$ 的分布函数 $($ 右连续 $)$ 定义为:
$F(x)=\mathbb{P}(X \leq x)$
对分布函数最直接的估计是应用经验分布函数。经验分布函数的定义为：当有独立的随机样本 $X_{1}, \ldots, X_{n}$ 时，定义
$\hat{F}_{n}(x)=\frac{1}{n} \sum_{i=1}^{n} I\left(X_{i} \leq x\right)$
这里 $\leq x)$ 为示性函数 (indicator function)，当 $\leq x$ 时取值为 $1,$ 否则为 0

定理：令 $X_{1}, X_{2}, \cdots, X_{n}$ 的分布函数为 $\hat{F}_{n}$ 为经验分布函数, 于是以下结论成立:

(1) $\forall x, E\left(\hat{F}_{n}(x)\right)=F(x), \operatorname{var}\left(\hat{F}_{n}(x)\right)=\frac{F(x)(1-F(x))}{n} ; \quad$ 于是, $\operatorname{MSE}=$
$\frac{F(x)(1-F(x))}{n} \rightarrow 0,$ 而且 $\dot{F}_{n}(x) \stackrel{P}{\rightarrow} F(x) .$
(2) (Glivenko-Cantelli 定理) $\sup _{x}\left|\hat{F}_{n}(x)-F(x)\right| \stackrel{\text { a.s. }}{\rightarrow} 0$ .
(3) (Dvoretzky-Kiefer-Wolfowitz $(\mathrm{DKW})$ 不等式) $\forall \varepsilon>0,$
$P\left(\sup _{x}\left|\hat{F}_{n}(x)-F(x)\right|>\varepsilon\right) \leqslant 2 \mathrm{e}^{-2 n \varepsilon^{2}}$

由 DKW 不等式, 我们可以构造一个置信区间. 令 $\varepsilon_{n}^{2}=\ln (2 / \alpha) /(2 n), L(x)=$
$\max \left\{\hat{F}_{n}(x)-\varepsilon_{n}, 0\right\}, U(x)=\min \left\{\hat{F}_{n}(x)+\varepsilon_{n}, 1\right\},$ 根据式 (1.3) 可以得到
$\leqslant F(x) \leqslant U(x)) \geqslant 1-\alpha$
也就是说，可以得到如下推论.

推论： $\quad$ 令
$\begin{array}{l} L(x)=\max \left\{\hat{F}_{n}(x)-\varepsilon_{n}, 0\right\} \\ U(x)=\min \left\{\hat{F}_{n}(x)+\varepsilon_{n}, 1\right\} \end{array}$
其中
$\varepsilon_{n}=\sqrt{\frac{1}{2 n} \ln \left(\frac{2}{\alpha}\right)}$
那么
$\leqslant F(x) \leqslant U(x)) \geqslant 1-\alpha .$

生存函数

生存函数是生存分析中的基本概念，它是用分布函数来定义:
$S(t)=\mathbb{P}(T>t)=1-F(t)$
其中， $T$ 是服从分布 $F$ 的随机变量进一步，我们可以用经验分布函数来估计生存函数
$S_{n}(t)=1-F_{n}(t)$
寿命超过t的数据所占的比例

危险函数

危险函数：一个生存时间超过给定时间的个体瞬时死亡率如果一个个体在时刻 $\mathrm{t}$ 仍然存活，那么个体在时间范围 $t+\delta)$ 死亡的概率为
$\mathbb{P}(t \leq T \leq t+\delta \mid T \geq t)=\frac{F(t+\delta)-F(t)}{1-F(t)} \approx \frac{\delta f(t)}{1-F(t)}$
危险函数定义为：
$h(t)=\frac{f(t)}{1-F(t)}$
$h (t)$ 是一个存活时间超过规定时间的个体瞬时死亡率。

危险函数还可以表示为:
$h(t)=-\frac{d}{d t} \ln [1-F(t)]=-\frac{d}{d t} \ln S(t)$
例如，考虑指数分布 $F(t)=1-e^{-\lambda t}$ 则可计算得到 $h(t)=\lambda$

利用 $\delta$ -method，可以计算对数生存函数的方差
$\begin{aligned} \operatorname{var}\left\{\ln \left[1-F_{n}(t)\right]\right\} & \approx \frac{\operatorname{var}\left[1-F_{n}(t)\right]}{[1-F(t)]^{2}}=\frac{1}{n} \frac{F(t)(1-F(t))}{[1-F(t)]^{2}} \\ &=\frac{1}{n} \frac{F(t)}{1-F(t)} . \end{aligned}$

渐进相对效率

Pitman 渐进相对效率是ARE的代表。针对零假设只取一个值的假设检验问题，在零假设的一个邻域内，固定势，令备择假设逼近零假设，将两个统计量的样本量比值的极限定义为渐进相对效率。

具体而言，对假设检验问题
$H_{0}: \theta=\theta_{0} \leftrightarrow H_{1}: \theta \neq \theta_{0}$
取备择假设序列 $\theta_{i}(i=1,2, \cdots), \theta_{i} \neq \theta_{0},$ 且 $\lim _{i \rightarrow \infty} \theta_{i}=\theta_{0} .$ 在固定势 $1-\beta$ 之下，我
的两个检验统计量序列, $n_{i}$ 和 $m_{i}$ 是两个统计量分别对应的样本量. 势函数满足:
$\begin{array}{c} \lim _{i \rightarrow \infty} g_{V_{n_{i}}}\left(\theta_{0}\right)=\lim _{i \rightarrow \infty} g_{T_{m_{i}}}\left(\theta_{0}\right)=\alpha \\ \alpha<\lim _{i \rightarrow \infty} g_{V_{n_{i}}}\left(\theta_{i}\right)=\lim _{i \rightarrow \infty} g_{T_{m_{i}}}\left(\theta_{i}\right)=1-\beta<1 \end{array}$
如果极限
$e_{V T}=\lim _{i \rightarrow \infty} \frac{m_{i}}{n_{i}}$
存在，且独立于 $\theta_{i}, \alpha$ 和 $\beta,$ 则称 $e_{V T}$ 是 $V$ 相对于 $T$ 的渐近相对效率，简记为 $\operatorname{ARE}(V, T) .$ 它是 Pitman 于 1948 年提出来的, 因此又称为 Pitman 沂近相对效率.

下面的 Nother 定理给出了计算沂近相对效率应满足的 5 个条件.
定理：对假设检验问题 $H_{0}: \theta=\theta_{0} \leftrightarrow H_{1}: \theta \neq \theta_{0}:$
(1) $V_{n}$ 和 $T_{m}$ 是相容的统计量. 也就是说: 当 $\rightarrow+\infty$ 时 $\forall \theta \neq \theta_{0},$
$g\left(\theta_{i}, V_{n_{i}}\right) \rightarrow 1, \quad g\left(\theta_{i}, T_{m_{i}}\right) \rightarrow 1$
(2) 如果记 $E\left(V_{n_{i}}\right)=\mu_{V_{n_{i}}}, \operatorname{var}\left(V_{n_{i}}\right)=\sigma_{V_{n_{i}}}^{2}, E\left(T_{m_{i}}\right)=\mu_{T_{m_{i}}}, \operatorname{var}\left(T_{m_{i}}\right)=\sigma_{T_{m_{i}}}^{2},$
则在 $\theta=\theta_{0}$ 的令域中一致地有缸
$\begin{array}{l} \frac{V_{n_{i}}-\mu_{V_{n_{i}}}(\theta)}{\sigma_{V_{n_{i}}}(\theta)} \stackrel{\mathcal{L}}{\rightarrow} N(0,1) \\ \frac{T_{m_{i}}-\mu_{T_{m_{i}}}(\theta)}{\sigma_{T_{m_{i}}}(\theta)} \stackrel{\mathcal{L}}{\rightarrow} N(0,1) \end{array}$
(3) 存在导数 $\left.\frac{\mathrm{d} \mu_{V_{n_{i}}}(\theta)}{\mathrm{d} \theta}\right|_{\theta=\theta_{0}},\left.\frac{\mathrm{d} \mu_{T_{m_{i}}}(\theta)}{\mathrm{d} \theta}\right|_{\theta=\theta_{0}} ;$ 而且 $\mu_{V_{n_{i}}}^{\prime}(\theta), \mu_{T_{m_{i}}}^{\prime}(\theta)$ 在 $\theta=\theta_{0}$ 的
某一个闭邻域内连续, 导数不为 $0 .$
(4)
$\begin{array}{l} \lim _{i \rightarrow \infty} \frac{\sigma_{V_{n_{i}}}\left(\theta_{i}\right)}{\sigma_{V_{n_{i}}}\left(\theta_{0}\right)}=\lim _{i \rightarrow \infty} \frac{\sigma_{T_{m_{i}}}\left(\theta_{i}\right)}{\sigma_{T_{m_{i}}}\left(\theta_{0}\right)}=1 \\ \lim _{i \rightarrow \infty} \frac{\mu_{V_{n_{i}}}\left(\theta_{i}\right)}{\mu_{V_{n_{i}}}\left(\theta_{0}\right)}=\lim _{i \rightarrow \infty} \frac{\mu_{T_{m_{i}}}\left(\theta_{i}\right)}{\mu_{T_{m_{i}}}\left(\theta_{0}\right)}=1 \end{array}$
(5)
$\lim _{i \rightarrow \infty} \frac{\mu_{V_{n_{i}}}^{\prime}\left(\theta_{0}\right)}{\sqrt{n_{i} \sigma_{V_{n_{i}}}^{2}\left(\theta_{0}\right)}}=C_{V}$
$\lim _{i \rightarrow \infty} \frac{\mu_{T_{m_{i}}}^{\prime}\left(\theta_{0}\right)}{\sqrt{m_{i} \sigma_{T_{m_{i}}}^{2}\left(\theta_{0}\right)}}=C_{T}$
则 $V$ 相对于 $T$ 的 Pitman 渐近相对效率等于
$\operatorname{ARE}(V, T)=\lim _{i \rightarrow \infty} \frac{m_{i}}{n_{i}}=\frac{C_{V}^{2}}{C_{T}^{2}}$

检验效率

定义：假设检验问题: $H_{0}: \theta=\theta_{0} \leftrightarrow H_{1}: \theta=\theta_{1},$ 上述定理中定义的极
限为
$\lim _{i \rightarrow \infty} \frac{\mu_{V_{n_{i}}}^{\prime}\left(\theta_{0}\right)}{\sqrt{n} \sigma_{V_{n_{i}}}\left(\theta_{0}\right)}$
称为 $V_{n}$ 的效率, 记为 $\mathrm{eff}(\mathrm{V})$ .