[课程笔记]非参数统计Chapter 2单一样本的推断问题

最新推荐文章于 2023-10-17 19:42:01 发布

子渔渔

最新推荐文章于 2023-10-17 19:42:01 发布

阅读量1.6k

点赞数 2

分类专栏：笔记非参数统计课程笔记

本文链接：https://blog.csdn.net/lanlingmuzichun/article/details/114643110

版权

笔记同时被 2 个专栏收录

9 篇文章 0 订阅

订阅专栏

非参数统计课程笔记

2 篇文章 0 订阅

订阅专栏

课程笔记：非参数统计
参考教材：《非参数统计（第二版）》，王星,褚挺进,清华大学出版社
《应用非参数统计》薛留根，科学出版社

文章目录

Chapter2 单一样本的推断问题

Chapter2 单一样本的推断问题

符号检验

符号检验：通过符号“+”和“–”的个数来进行统计推断。数值只和两类观测值有关。

假设总体 $\mathcal{F}(M), M_{\mathrm{e}}$ 是总体的中位数, 对于假设检验问题:
$H_{0}: M_{\mathrm{e}}=M_{0} \leftrightarrow H_{1}: M_{\mathrm{e}} \neq M_{0}$
其中 $M_{0}$ 是待检验的中位数值. 假设 $X_{1}, X_{2}, \cdots, X_{n}$ 是从总体 $\mathcal{F}(M)$ 中产生的简单随机样木, 定义: $Y_{i}=I\left\{X_{i}>M_{0}\right\}, Z_{i}=I\left\{X_{i}<M_{0}\right\},$
$S^{+}=\sum_{i=1}^{n} Y_{i}, \quad S^{-}=\sum_{i=1}^{n} Z_{i}$
$S^{+}+S^{-}=n^{\prime}, n^{\prime} \leqslant n,$ 令 $K=\min \left\{S^{+}, S^{-}\right\} .$ 在零假设之下,假设检验问题 (2.1) 寸
价于另一个结构问题: $\sim b(1, p), p=P\left(X>M_{0}\right),$
$H_{0}: p=0.5 \leftrightarrow H_{1}: p \neq 0.5$
此时, $K < k$ 可以按照抽样分布 $b\left(n^{\prime}, 0.5\right)$ 求解得到，在显著性水平为 $\alpha$ 下的检验的拒绝域为
$\times P_{\text {binom }}\left(K \leqslant k \mid n^{\prime}, p=0.5\right) \leqslant \alpha$

大样本计算

当样本量较大时，可以使用二项分布的正态近似进行检验，也就是说,当 $S^{+} \sim$ $b\left(n^{\prime}, \frac{1}{2}\right)$ 时, $S^{+} \dot{\sim} N\left(\frac{n^{\prime}}{2}, \frac{n^{\prime}}{4}\right),$ 定义
$Z=\frac{S^{+}-\frac{n^{\prime}}{2}}{\sqrt{\frac{n^{\prime}}{4}}} \stackrel{\mathcal{L}}{\rightarrow} N(0,1), n \rightarrow+\infty$
当 $n^{\prime}$ 不台大时，可以用 $Z$ 的正态性修正，如下式:
$Z=\frac{S^{+}-\frac{n^{\prime}}{2}+C}{\sqrt{\frac{n^{\prime}}{4}}} \stackrel{c}{\rightarrow} N(0,1)$
一股, 当 $S^{+}<\frac{n^{\prime}}{2}$ 时, $C=-\frac{1}{2} ;$ 当 $S^{+}>\frac{n^{\prime}}{2}$ 时, $C=\frac{1}{2}$ 。（当 $S^+$ 值较小时，服从的分布的均值增大1/2，当 $S^+$ 的值较大时，服从的分布的均值减小一些）

相应的 $p$ 值为 $2 P_{N(0,1)}(Z<z$ ). 同理，可以得到单侧检验的结论如下。

左侧检验: $H_{0}: M_{\mathrm{e}} \leqslant M_{0} \leftrightarrow H_{1}: M_{\mathrm{e}}>M_{0}, p$ 值为 $P_{N(0,1)}(Z<z) ;$
右侧检验: $H_{0}: M_{\mathrm{e}} \geqslant M_{0} \leftrightarrow H_{1}: M_{\mathrm{e}}<M_{0}, p$ 值为 $P_{N(0,1)}(Z>z) .$

分位数检验

假设总体 $\mathcal{F}\left(M_{p}\right), M_{p}$ 是总体的 $p$ 分位数, 对于假设检验问题:
$H_{0}: M_{p}=M_{p_{0}} \leftrightarrow H_{1}: M_{p} \neq M_{p_{0}}$
$M_{p_{0}}$ 是待检验的 $p_{0}$ 分位数.上述检验问题等价于
$H_{0}: p=p_{0} \leftrightarrow H_{1}: p \neq p_{0}$
类似于中位数检验，定义: $Y_{i}=I\left\{X_{i}>M_{p_{0}}\right\}, Z_{i}=I\left\{X_{i}<M_{p_{0}}\right\},$ 我们注意到
在零假设之下, $Z_{i} \sim B\left(1, p_{0}\right),$
$S^{+}=\sum_{i=1}^{n} Y_{i}, \quad S^{-}=\sum_{i=1}^{n} Z_{i}$
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-V6JD84g5-1615373438409)(D:\大学\BCD专业课\a非参数统计\非参数统计310.png)]

Cox-Staut 趋势存在性检验

$H_{0}:$ 数据序列无趋势 $\leftrightarrow H_{1}:$ 数据序列有增长或下降趋势
假设数据序列 $x_{1}, x_{2}, \cdots, x_{n}$ 独立, 在零假设之下, 同分布为 $F (x),$ 令
$c=\left\{\begin{array}{ll} n / 2, & \text { 如果 } n \text { 是偶数, } \\ (n+1) / 2, & \text { 如果 } n \text { 是奇数. } \end{array}\right.$
取 $x_{i}$ 和 $x_{i+c}$ 组成数对 $\left(x_{i}, x_{i+c}\right)$ 。

当 $n$ 为偶数时, 共有 $c$ 对, 当 $n$ 为奇数时, 共有 $c - 1$ 对。

计算每一数对前后两值之差: $D_{i}=x_{i}-x_{i+c}$ . 用 $D_{i}$ 的符号度量增减。
令 $S^{+}$ 为正 $D_{i}$ 的数目, 令 $S^{-}$ 为负 $D_{i}$ 的数目, $S^{+}+S^{-}=n^{\prime}, n^{\prime} \leqslant n .$ 。
令 $K=\min \left\{S^{+}, S^{-}\right\},$ 显然当正号太多或负号太多, 即 $K$ 过小的时候, 有趋势存在。
在没有趋势的零假设下, $K$ 服从二项分布 $b\left(n^{\prime}, 0.5\right),$ 该检验在某种意义上是符号检验的应用的拓展。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-PyHrACED-1615373438412)(D:\大学\BCD专业课\a非参数统计\非参数统计310_2.png)]

随机游程检验

其中一个典型的序列是二元 $0 / 1$ 序列出现顺序的随机性问题。在一个二元序列中, 0 和 1 交替出现。

首先引入以下概念:

在一个二元序列中, 一个由 0 或 1 连续构成的串称为一个游程,
一个游程中数据的个数称为游程的长度.
一个序列中游程个数用 $R$ 表示, $R$ 表示 0 和 1 交替轮换的频累程度.

容易看出, $R$ 是序列中 0 和 1 交替轮换的总次数加 1 。

Mood(1940) 提出关于这一问题的检验 $X_{1}, X_{2}, \cdots, X_{n}$ 是一列由 0 或 1 构成的序列，假设检验问题：
$H_{0}:$ 数据出现顺序随机 $\leftrightarrow H_{1}:$ 数据出现顺序不随机,
$R$ 为游程个数, $\leqslant R \leqslant n .$ 在零假设成立的情况下, $X_{i} \sim b(1, p), p$ 是 1 出现的概率, 由 $n_{1} / n$ 确定 $, R$ 的分布与 $p$ 有关. 假设有 $n_{0}$ 个 0 和 $n_{1}$ 个 $1, n_{1}+n_{0}=n,$ 出
现任何一种不同结构序列的可能性是1 $/\left(\begin{array}{c}n \\ n_{1}\end{array}\right)=1 /\left(\begin{array}{c}n \\ n_{0}\end{array}\right),$ 注意到 0 游程和 1 游程之间是者差 $1,$ 于是得到 $R$ 的条件分布为
$$
P(R=2 k)=\frac{2\left(\begin{array}{c}
n_{1}-1 \
k-1
\end{array}\right)\left(\begin{array}{c}
n_{0}-1 \
k-1
\end{array}\right)}{\left(\begin{array}{c}
n \
n_{1}
\end{array}\right)}
\

P(R=2 k+1)=\frac{\left(\begin{array}{c}
n_{1}-1 \
k-1
\end{array}\right)\left(\begin{array}{c}
n_{0}-1 \
k
\end{array}\right)+\left(\begin{array}{c}
n_{1}-1 \
k
\end{array}\right)\left(\begin{array}{c}
n_{0}-1 \
k-1
\end{array}\right)}{\left(\begin{array}{c}
n \
n_{1}
\end{array}\right)} .
$$

当数据序列的量很大时，即 $\rightarrow \infty$ 时，零假设下，根据精确分布的性质可以
得到：
$\begin{array}{c} E(R)=\frac{2 n_{1} n_{0}}{n_{1}+n_{0}}+1 \\ \operatorname{var}(R)=\frac{2 n_{1} n_{0}\left(2 n_{1} n_{0}-n_{0}-n_{1}\right)}{\left(n_{1}+n_{0}\right)^{2}\left(n_{1}+n_{0}-1\right)}=\frac{(E(R)-1)(E(R)-2)}{n_{1}+n_{0}-1} \end{array}$
当 $\frac{n_{1}}{n_{0}} \rightarrow \gamma$ 时，则
$E(R)=\frac{2 n_{1}}{(1+\gamma)}+1, \quad \operatorname{var}(R) \approx 4 \gamma n_{1} /(1+\gamma)^{3}$
于是
$Z=\frac{R-E(R)}{\sqrt{\operatorname{var}(R)}}=\frac{R-2 n_{1} /(1+\gamma)}{\sqrt{4 \gamma n_{1} /(1+\gamma)^{3}}} \stackrel{\mathcal{L}}{\rightarrow} N(0,1)$
因此可以用正态分布表得到 $p$ 值和检验结果. 这时，在给定水平 $\alpha$ 后，可以用近似公式得到拒绝域的临界值:
$r_{1}=\frac{2 n_{1} n_{0}}{n_{1}+n_{0}}\left[1+\frac{Z_{\frac{\alpha}{2}}}{\sqrt{n_{1}+n_{0}}}\right], \quad r_{\mathrm{u}}=\frac{2 n_{1} n_{0}}{n_{1}+n_{0}}\left[1-\frac{Z_{\frac{\alpha}{2}}}{\sqrt{n_{1}+n_{0}}}\right]$

Wilcoxon检验

要求：分布为对称分布

定理 2.1 $\quad X$ 服从分布函数为 $F(\theta)$ 的分布, 且 $F(\theta)$ 关于 $\theta$ 对称, 总体的对称中心是总体的中位数之一。

$R_{j}^{+}$ ： $\left|X_{j}\right|$ 在绝对值样本中的秩, 即 $\left|X_{j}\right|=|X|_{\left(R_{j}^{+}\right)}$ 。
$S (x)$ 表示示性函数 $I (x > 0),$ 它在 $x > 0$ 时为 $1,$ 否则为 $0 $。
反秩(antirank) ：反秩 $D_{j}$ 是由 $\left|X_{D_{j}}\right|=|X|_{(j)}$ 定义的.
我们还用 $W_{j}$ 表示与 $X|_{(j)}$ 相应的原样本点的示性函数, 即 $W_{j}=S\left(X_{D_{j}}\right),$ 且称 $R_{j}^{+} S\left(X_{j}\right)$ 为符号秩统计量。第j小的元素如果为正，则 $W_j=1$ ,若为负，则 $W_j=0$ 。
Wilcoxon 符号秩统计量定义为

$W^{+}=\sum_{j=1}^{n} j W_{j}=\sum_{j=1}^{n} R_{j}^{+} S\left(X_{j}\right)$
它是正的样本点按绝对值所得秩的和。

设 $F(x-\theta)$ 对称, 零假设为 $H_{0}: \theta=0,$ 有下面 3 个定理.

定理 $\quad$ 如果零假设 $H_{0}: \theta=0$ 成立 $,$ 则 $S\left(X_{1}\right), S\left(X_{2}\right), \cdots, S\left(X_{n}\right)$ 独立于 $\left(R_{1}^{+}, R_{2}^{+}, \cdots, R_{n}^{+}\right)$

证明: $\quad$ 事实上, 因为 $\left(R_{1}^{+}, R_{2}^{+}, \cdots, R_{n}^{+}\right)$ 是 $\left|X_{1}\right|,\left|X_{2}\right|, \cdots,\left|X_{n}\right|$ 的函数, 而出自随机样本的 $\left(S\left(X_{i}\right),\left|X_{j}\right|\right), i, j=1,2, \cdots, n, j \neq i$ 是互相独立的数据对, 因此我们只要试明 $S\left(X_{i}\right)$ 和 $\left|X_{i}\right|$ 是互相独立的即可。事实上,
$\begin{aligned} P\left(S\left(X_{i}\right)=1,\left|X_{i}\right| \leqslant x\right) &=P\left(0<X_{i} \leqslant x\right)=F(x)-F(0)=F(x)-\frac{1}{2} \\ &=\frac{2 F(x)-1}{2}=P\left(S\left(X_{i}\right)=1\right) P\left(\left|X_{i}\right| \leqslant x\right) \end{aligned}$

定理 $\quad$ 如果零假设 $H_{0}: \theta=0$ 成立 $,$ 则 $S\left(X_{1}\right), S\left(X_{2}\right), \cdots, S\left(X_{n}\right)$ 独立于 $\left(D_{1}, D_{2}, \cdots, D_{n}\right)$

定理 $2.4\quad$ 如果零假设 $H_{0}: \theta=0$ 成立, 则 $W_{1}, W_{2}, \cdots, W_{n}$ 是独立同分布的, 其分布为 $P\left(W_{i}=0\right)=P\left(W_{i}=1\right)=\frac{1}{2} .$
证明 : $\quad$ 令 $\boldsymbol{D}=\left(D_{1}, D_{2}, \cdots, D_{n}\right), \boldsymbol{d}=\left(d_{1}, d_{2}, \cdots, d_{n}\right),$
$\begin{aligned} & P\left(W_{1}=w_{1}, W_{2}=w_{2}, \cdots, W_{n}=w_{n}\right) \\ =& \sum_{d} P\left(S\left(X_{D_{1}}\right)=w_{1}, S\left(X_{D_{2}}\right)=w_{2}, \cdots, S\left(X_{D_{n}}\right)=w_{n} \mid \boldsymbol{D}=\boldsymbol{d}\right) P(\boldsymbol{D}=\boldsymbol{d}) \\ =& \sum_{d} P\left(S\left(X_{d_{1}}\right)=w_{1}, S\left(X_{d_{2}}\right)=w_{2}, \cdots, S\left(X_{d_{n}}\right)=w_{n}\right) P(\boldsymbol{D}=\boldsymbol{d}) \\ =&\left(\frac{1}{2}\right)^{n} \sum_{d} P(\boldsymbol{D}=\boldsymbol{d})=\left(\frac{1}{2}\right)^{n} \end{aligned}$
因此有 $P\left(W_{1}, W_{2}, \cdots, W_{n}\right)=\prod_{i=1}^{n} P\left(W_{i}=w_{i}\right)$ 及 $P\left(W_{i}=w_{i}\right)=\frac{1}{2} .$

符号秩的检验过程

假设样本点 $X_{1}, X_{2}, \cdots, X_{n}$ 来自连续对称总体分布 (符号检验不需要这个假设). 在这个假定下总体中位数等于均值.

它的检验目的和符号检验是一样的, 即要检验双边问题 $H_{0}: M=M_{0}$ 或检验单边问题 $H_{0}: M \leqslant M_{0}$ 及 $H_{0}: M \geqslant M_{0},$
Wilcoxon 符号秩检验均步骤如下：
(1) 对 $\cdots, n,$ 计算 $\left|X_{i}-M_{0}\right| ;$ 它们表示这些样本点到 $M_{0}$ 的距离.
(2) 将上面 $n$ 个绝对值排字，并找出它们蛇 $n$ 个秩; 如果有相同的样本点，每个点取平均秩.
的 $\left|X_{i}-M_{0}\right|$ 的秩物和. 注意: $W^{+}+W^{-}=n(n+1) / 2$ .
(4) 对双边检验 $H_{0}: M=M_{0} \leftrightarrow H_{1}: M \neq M_{0},$ 在零假设下, $W^{+}$ 和 $W^{-}$ 应差不多. 因而，当其中之一很小时，应怀疑零假设;因此，取检验统计量 $W =$ $\min \left\{W^{+}, W^{-}\right\} .$ 类似地, 对 $H_{0}: M \leqslant M_{0} \leftrightarrow H_{1}: M>M_{0}$ 的单边检验取 $W=W^{-} ;$
对 $H_{0}: M \geqslant M_{0} \leftrightarrow H_{1}: M<M_{0}$ 的单边检验取 $W=W^+ .$
(5) 根据得到的 $W$ 值, 查 Wilcoxon 符号秩检验的分布表以得到在零假设下的 $p$ 值. 如果 $n$ 很大要用正态近似，得到一个与 $W$ 有关的正态随机变量 $Z$ 的值, 再查表得到 $p$ 值，或直接在软件中计算得到 $p$ 值。
(6) 如果 $p$ 值小 (比如小于或寺于给定的显著性水平 0.05 ), 则可以拒绝零假设. 实际上显著性水平 $\alpha$ 可取任何大于或等于 $p$ 值的数. 如果 $p$ 值较大，则没有充分证据来拒绝零假设，但不意味着接受零假设.

$W^+$ 的精确分布

以下给出计算 $W^{+}$ 概率的一般方法。首先, $\forall j$ 有
$E\left(\exp \left(t_{j} W_{j}\right)\right)=\frac{1}{2} \exp (0)+\frac{1}{2} \exp \left(t_{j}\right)=\frac{1}{2}\left(1+\exp \left(t_{j}\right)\right)$
计算样本量为 $n$ 时, $W^{+}$ 的母函数如下:
$\begin{aligned} M_{n}(t) &=E\left(\exp \left(t W^{+}\right)\right)=E\left(\exp \left(t \sum j W_{j}\right)\right) \\ &=\prod_{j} E\left(\exp \left(t j W_{j}\right)\right)=\frac{1}{2^{n}} \prod_{j=1}^{n}\left(1+\mathrm{e}^{t j}\right) \end{aligned}$
母函数有展开式
$M(t)=a_{0}+a_{1} \mathrm{e}^{t}+a_{2} \mathrm{e}^{2 t}+\cdots$
则 $P_{H_{0}}\left(W^{+}=j\right)=a_{j} $。

$W^+$ 的大样本分布

可利用正态近似。
$\begin{array}{l} E\left(W^{+}\right)=E\left(\sum j W_{j}\right)=\frac{1}{2} \sum_{j=1}^{n} j=\frac{1}{2} \frac{n(n+1)}{2}=\frac{1}{4} n(n+1) \\ \operatorname{var}\left(W^{+}\right)=\operatorname{var}\left(\sum j W_{j}\right)=\frac{1}{4} \sum_{j}^{n} j^{2}=\frac{1}{24} n(n+1)(2 n+1) \end{array}$

在零假设下由此可构造大样本渐近正态统计量, 零假设下的近似计算如下:
$Z=\frac{W^{+}-n(n+1) / 4}{\sqrt{n(n+1)(2 n+1) / 24}} \stackrel{\mathcal{L}}{\rightarrow} N(0,1)$
计算出 $Z$ 值后，可由正态分布表查出检验统计量对应的 $p$ 值, 如果 $p$ 值过小, 则拒她零假设 $H_{0}: \theta=M_{0}$ . 小样本情况下使用连续性修正, 如下所示:
$Z=\frac{W^{+}-n(n+1) / 4 + C}{\sqrt{n(n+1)(2 n+1) / 24}} \stackrel{\mathcal{L}}{\rightarrow} N(0,1)$
当 $W^{+}>n(n+1) / 4$ 时, 用正连续性修正, $C = 0.5$ ; 当 $W^{+}<n(n+1) / 4$ 时, 用负连续性修正, $C = - 0.5 .$