课程笔记:非参数统计
参考教材:《非参数统计(第二版)》,王星,褚挺进,清华大学出版社
《应用非参数统计》薛留根,科学出版社
Chapter2 单一样本的推断问题
符号检验
符号检验
符号检验:通过符号“+”和“–”的个数来进行统计推断。 数值只和两类观测值有关。
假设总体
F
(
M
)
,
M
e
\mathcal{F}(M), M_{\mathrm{e}}
F(M),Me 是总体的中位数, 对于假设检验问题:
H
0
:
M
e
=
M
0
↔
H
1
:
M
e
≠
M
0
H_{0}: M_{\mathrm{e}}=M_{0} \leftrightarrow H_{1}: M_{\mathrm{e}} \neq M_{0}
H0:Me=M0↔H1:Me=M0
其中
,
M
0
, M_{0}
,M0 是待检验的中位数值. 假设
X
1
,
X
2
,
⋯
,
X
n
X_{1}, X_{2}, \cdots, X_{n}
X1,X2,⋯,Xn 是从总体
F
(
M
)
\mathcal{F}(M)
F(M) 中产生的简单随机样木, 定义:
Y
i
=
I
{
X
i
>
M
0
}
,
Z
i
=
I
{
X
i
<
M
0
}
,
Y_{i}=I\left\{X_{i}>M_{0}\right\}, Z_{i}=I\left\{X_{i}<M_{0}\right\},
Yi=I{Xi>M0},Zi=I{Xi<M0},
S
+
=
∑
i
=
1
n
Y
i
,
S
−
=
∑
i
=
1
n
Z
i
S^{+}=\sum_{i=1}^{n} Y_{i}, \quad S^{-}=\sum_{i=1}^{n} Z_{i}
S+=i=1∑nYi,S−=i=1∑nZi
S
+
+
S
−
=
n
′
,
n
′
⩽
n
,
S^{+}+S^{-}=n^{\prime}, n^{\prime} \leqslant n,
S++S−=n′,n′⩽n, 令
K
=
min
{
S
+
,
S
−
}
.
K=\min \left\{S^{+}, S^{-}\right\} .
K=min{S+,S−}. 在零假设之下,假设检验问题 (2.1) 寸
价于另一个结构问题:
Y
∼
b
(
1
,
p
)
,
p
=
P
(
X
>
M
0
)
,
Y \sim b(1, p), p=P\left(X>M_{0}\right),
Y∼b(1,p),p=P(X>M0),
H
0
:
p
=
0.5
↔
H
1
:
p
≠
0.5
H_{0}: p=0.5 \leftrightarrow H_{1}: p \neq 0.5
H0:p=0.5↔H1:p=0.5
此时,
K
<
k
K<k
K<k 可以按照抽样分布
b
(
n
′
,
0.5
)
b\left(n^{\prime}, 0.5\right)
b(n′,0.5) 求解得到,在显著性水平为
α
\alpha
α 下的检验 的拒绝域为
2
×
P
binom
(
K
⩽
k
∣
n
′
,
p
=
0.5
)
⩽
α
2 \times P_{\text {binom }}\left(K \leqslant k \mid n^{\prime}, p=0.5\right) \leqslant \alpha
2×Pbinom (K⩽k∣n′,p=0.5)⩽α
- 大样本计算
当样本量较大时,可以使用二项分布的正态近似进行检验,也就是说,当
S
+
∼
S^{+} \sim
S+∼
b
(
n
′
,
1
2
)
b\left(n^{\prime}, \frac{1}{2}\right)
b(n′,21) 时,
S
+
∼
˙
N
(
n
′
2
,
n
′
4
)
,
S^{+} \dot{\sim} N\left(\frac{n^{\prime}}{2}, \frac{n^{\prime}}{4}\right),
S+∼˙N(2n′,4n′), 定义
Z
=
S
+
−
n
′
2
n
′
4
→
L
N
(
0
,
1
)
,
n
→
+
∞
Z=\frac{S^{+}-\frac{n^{\prime}}{2}}{\sqrt{\frac{n^{\prime}}{4}}} \stackrel{\mathcal{L}}{\rightarrow} N(0,1), n \rightarrow+\infty
Z=4n′S+−2n′→LN(0,1),n→+∞
当
n
′
n^{\prime}
n′ 不台大时,可以用
Z
Z
Z 的正态性修正,如下式:
Z
=
S
+
−
n
′
2
+
C
n
′
4
→
c
N
(
0
,
1
)
Z=\frac{S^{+}-\frac{n^{\prime}}{2}+C}{\sqrt{\frac{n^{\prime}}{4}}} \stackrel{c}{\rightarrow} N(0,1)
Z=4n′S+−2n′+C→cN(0,1)
一股, 当
S
+
<
n
′
2
S^{+}<\frac{n^{\prime}}{2}
S+<2n′ 时,
C
=
−
1
2
;
C=-\frac{1}{2} ;
C=−21; 当
S
+
>
n
′
2
S^{+}>\frac{n^{\prime}}{2}
S+>2n′ 时,
C
=
1
2
C=\frac{1}{2}
C=21。(当
S
+
S^+
S+值较小时,服从的分布的均值增大1/2,当
S
+
S^+
S+的值较大时,服从的分布的均值减小一些)
相应的 p p p 值为 2 P N ( 0 , 1 ) ( Z < z 2 P_{N(0,1)}(Z<z 2PN(0,1)(Z<z). 同理,可以得到单侧检验的结论如下。
左侧检验:
H
0
:
M
e
⩽
M
0
↔
H
1
:
M
e
>
M
0
,
p
H_{0}: M_{\mathrm{e}} \leqslant M_{0} \leftrightarrow H_{1}: M_{\mathrm{e}}>M_{0}, p
H0:Me⩽M0↔H1:Me>M0,p 值为
P
N
(
0
,
1
)
(
Z
<
z
)
;
P_{N(0,1)}(Z<z) ;
PN(0,1)(Z<z);
右侧检验:
H
0
:
M
e
⩾
M
0
↔
H
1
:
M
e
<
M
0
,
p
H_{0}: M_{\mathrm{e}} \geqslant M_{0} \leftrightarrow H_{1}: M_{\mathrm{e}}<M_{0}, p
H0:Me⩾M0↔H1:Me<M0,p 值为
P
N
(
0
,
1
)
(
Z
>
z
)
.
P_{N(0,1)}(Z>z) .
PN(0,1)(Z>z).
分位数检验
假设总体
F
(
M
p
)
,
M
p
\mathcal{F}\left(M_{p}\right), M_{p}
F(Mp),Mp 是总体的
p
p
p 分位数, 对于假设检验问题:
H
0
:
M
p
=
M
p
0
↔
H
1
:
M
p
≠
M
p
0
H_{0}: M_{p}=M_{p_{0}} \leftrightarrow H_{1}: M_{p} \neq M_{p_{0}}
H0:Mp=Mp0↔H1:Mp=Mp0
M
p
0
M_{p_{0}}
Mp0 是待检验的
p
0
p_{0}
p0 分位数.上述检验问题等价于
H
0
:
p
=
p
0
↔
H
1
:
p
≠
p
0
H_{0}: p=p_{0} \leftrightarrow H_{1}: p \neq p_{0}
H0:p=p0↔H1:p=p0
类似于中位数检验,定义:
Y
i
=
I
{
X
i
>
M
p
0
}
,
Z
i
=
I
{
X
i
<
M
p
0
}
,
Y_{i}=I\left\{X_{i}>M_{p_{0}}\right\}, Z_{i}=I\left\{X_{i}<M_{p_{0}}\right\},
Yi=I{Xi>Mp0},Zi=I{Xi<Mp0}, 我们注意到
在零假设之下,
Z
i
∼
B
(
1
,
p
0
)
,
Z_{i} \sim B\left(1, p_{0}\right),
Zi∼B(1,p0),
S
+
=
∑
i
=
1
n
Y
i
,
S
−
=
∑
i
=
1
n
Z
i
S^{+}=\sum_{i=1}^{n} Y_{i}, \quad S^{-}=\sum_{i=1}^{n} Z_{i}
S+=i=1∑nYi,S−=i=1∑nZi
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-V6JD84g5-1615373438409)(D:\大学\BCD专业课\a非参数统计\非参数统计310.png)]
Cox-Staut 趋势存在性检验
H
0
:
H_{0}:
H0: 数据序列无趋势
↔
H
1
:
\leftrightarrow H_{1}:
↔H1: 数据序列有增长或下降趋势
假设数据序列
x
1
,
x
2
,
⋯
,
x
n
x_{1}, x_{2}, \cdots, x_{n}
x1,x2,⋯,xn 独立, 在零假设之下, 同分布为
F
(
x
)
,
F(x),
F(x), 令
c
=
{
n
/
2
,
如果
n
是偶数,
(
n
+
1
)
/
2
,
如果
n
是奇数.
c=\left\{\begin{array}{ll} n / 2, & \text { 如果 } n \text { 是偶数, } \\ (n+1) / 2, & \text { 如果 } n \text { 是奇数. } \end{array}\right.
c={n/2,(n+1)/2, 如果 n 是偶数, 如果 n 是奇数.
取
x
i
x_{i}
xi 和
x
i
+
c
x_{i+c}
xi+c 组成数对
(
x
i
,
x
i
+
c
)
\left(x_{i}, x_{i+c}\right)
(xi,xi+c)。
当 n n n 为偶数时, 共有 c c c 对, 当 n n n 为奇数时, 共有 c − 1 c-1 c−1 对。
-
计算每一数对前后两值之差: D i = x i − x i + c D_{i}=x_{i}-x_{i+c} Di=xi−xi+c. 用 D i D_{i} Di 的符号度量 增减。
-
令 S + S^{+} S+ 为正 D i D_{i} Di 的数目, 令 S − S^{-} S− 为负 D i D_{i} Di 的数目, S + + S − = n ′ , n ′ ⩽ n . S^{+}+S^{-}=n^{\prime}, n^{\prime} \leqslant n . S++S−=n′,n′⩽n.。
-
令 K = min { S + , S − } , K=\min \left\{S^{+}, S^{-}\right\}, K=min{S+,S−}, 显然当正号太多或负号太多, 即 K K K 过小的时候, 有趋势存在。
-
在没有趋势的零假设下, K K K 服从二项分布 b ( n ′ , 0.5 ) , b\left(n^{\prime}, 0.5\right), b(n′,0.5), 该检验在某种意义上是符号检验的应用的拓展。
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-PyHrACED-1615373438412)(D:\大学\BCD专业课\a非参数统计\非参数统计310_2.png)]
随机游程检验
其中一个典型的序列是二元 0 / 1 0 / 1 0/1 序列出现顺序的随机性问题。 在一个二元序列中, 0 和 1 交替出现。
首先引入以下概念:
-
在一个二元序列中, 一个由 0 或 1 连续构成的串称为一个游程,
-
一个游程中数据的个数称为游程的长度.
-
一个序列中 游程个数 用 R R R 表示, R R R 表示 0 和 1 交替轮换的频累程度.
容易看出, R R R 是序列中 0 和 1 交替轮换的总次数加 1 。
Mood(1940) 提出关于这一问题的检验
:
X
1
,
X
2
,
⋯
,
X
n
: X_{1}, X_{2}, \cdots, X_{n}
:X1,X2,⋯,Xn 是 一列由 0 或 1 构成的序列,假设检验问题:
H
0
:
H_{0}:
H0: 数据出现顺序随机
↔
H
1
:
\leftrightarrow H_{1}:
↔H1: 数据出现顺序不随机,
R
R
R 为游程个数,
1
⩽
R
⩽
n
.
1 \leqslant R \leqslant n .
1⩽R⩽n. 在零假设成立的情况下,
X
i
∼
b
(
1
,
p
)
,
p
X_{i} \sim b(1, p), p
Xi∼b(1,p),p 是 1 出现的概 率, 由
n
1
/
n
n_{1} / n
n1/n 确定
,
R
, R
,R 的分布与
p
p
p 有关. 假设有
n
0
n_{0}
n0 个 0 和
n
1
n_{1}
n1 个
1
,
n
1
+
n
0
=
n
,
1, n_{1}+n_{0}=n,
1,n1+n0=n, 出
现任何一种不同结构序列的可能性是1
/
(
n
n
1
)
=
1
/
(
n
n
0
)
,
/\left(\begin{array}{c}n \\ n_{1}\end{array}\right)=1 /\left(\begin{array}{c}n \\ n_{0}\end{array}\right),
/(nn1)=1/(nn0), 注意到 0 游程和 1 游程之间是者差
1
,
1,
1, 于是得到
R
R
R 的条件分布为
$$
P(R=2 k)=\frac{2\left(\begin{array}{c}
n_{1}-1 \
k-1
\end{array}\right)\left(\begin{array}{c}
n_{0}-1 \
k-1
\end{array}\right)}{\left(\begin{array}{c}
n \
n_{1}
\end{array}\right)}
\
P(R=2 k+1)=\frac{\left(\begin{array}{c}
n_{1}-1 \
k-1
\end{array}\right)\left(\begin{array}{c}
n_{0}-1 \
k
\end{array}\right)+\left(\begin{array}{c}
n_{1}-1 \
k
\end{array}\right)\left(\begin{array}{c}
n_{0}-1 \
k-1
\end{array}\right)}{\left(\begin{array}{c}
n \
n_{1}
\end{array}\right)} .
$$
当数据序列的量很大时,即
n
→
∞
n \rightarrow \infty
n→∞ 时,零假设下,根据精确分布的性质可以
得到:
E
(
R
)
=
2
n
1
n
0
n
1
+
n
0
+
1
var
(
R
)
=
2
n
1
n
0
(
2
n
1
n
0
−
n
0
−
n
1
)
(
n
1
+
n
0
)
2
(
n
1
+
n
0
−
1
)
=
(
E
(
R
)
−
1
)
(
E
(
R
)
−
2
)
n
1
+
n
0
−
1
\begin{array}{c} E(R)=\frac{2 n_{1} n_{0}}{n_{1}+n_{0}}+1 \\ \operatorname{var}(R)=\frac{2 n_{1} n_{0}\left(2 n_{1} n_{0}-n_{0}-n_{1}\right)}{\left(n_{1}+n_{0}\right)^{2}\left(n_{1}+n_{0}-1\right)}=\frac{(E(R)-1)(E(R)-2)}{n_{1}+n_{0}-1} \end{array}
E(R)=n1+n02n1n0+1var(R)=(n1+n0)2(n1+n0−1)2n1n0(2n1n0−n0−n1)=n1+n0−1(E(R)−1)(E(R)−2)
当
n
1
n
0
→
γ
\frac{n_{1}}{n_{0}} \rightarrow \gamma
n0n1→γ 时,则
E
(
R
)
=
2
n
1
(
1
+
γ
)
+
1
,
var
(
R
)
≈
4
γ
n
1
/
(
1
+
γ
)
3
E(R)=\frac{2 n_{1}}{(1+\gamma)}+1, \quad \operatorname{var}(R) \approx 4 \gamma n_{1} /(1+\gamma)^{3}
E(R)=(1+γ)2n1+1,var(R)≈4γn1/(1+γ)3
于是
Z
=
R
−
E
(
R
)
var
(
R
)
=
R
−
2
n
1
/
(
1
+
γ
)
4
γ
n
1
/
(
1
+
γ
)
3
→
L
N
(
0
,
1
)
Z=\frac{R-E(R)}{\sqrt{\operatorname{var}(R)}}=\frac{R-2 n_{1} /(1+\gamma)}{\sqrt{4 \gamma n_{1} /(1+\gamma)^{3}}} \stackrel{\mathcal{L}}{\rightarrow} N(0,1)
Z=var(R)R−E(R)=4γn1/(1+γ)3R−2n1/(1+γ)→LN(0,1)
因此可以用正态分布表得到
p
p
p 值和检验结果. 这时,在给定水平
α
\alpha
α 后,可以用 近似公式得到拒绝域的临界值:
r
1
=
2
n
1
n
0
n
1
+
n
0
[
1
+
Z
α
2
n
1
+
n
0
]
,
r
u
=
2
n
1
n
0
n
1
+
n
0
[
1
−
Z
α
2
n
1
+
n
0
]
r_{1}=\frac{2 n_{1} n_{0}}{n_{1}+n_{0}}\left[1+\frac{Z_{\frac{\alpha}{2}}}{\sqrt{n_{1}+n_{0}}}\right], \quad r_{\mathrm{u}}=\frac{2 n_{1} n_{0}}{n_{1}+n_{0}}\left[1-\frac{Z_{\frac{\alpha}{2}}}{\sqrt{n_{1}+n_{0}}}\right]
r1=n1+n02n1n0[1+n1+n0Z2α],ru=n1+n02n1n0[1−n1+n0Z2α]
Wilcoxon检验
要求:分布为对称分布
定理 2.1 X \quad X X 服从分布函数为 F ( θ ) F(\theta) F(θ) 的分布, 且 F ( θ ) F(\theta) F(θ) 关于 θ \theta θ 对称, 总体的对 称中心是总体的中位数之一。
- R j + R_{j}^{+} Rj+ : ∣ X j ∣ \left|X_{j}\right| ∣Xj∣ 在绝对值样本中的秩, 即 ∣ X j ∣ = ∣ X ∣ ( R j + ) \left|X_{j}\right|=|X|_{\left(R_{j}^{+}\right)} ∣Xj∣=∣X∣(Rj+) 。
- S ( x ) S(x) S(x) 表示示性函数 I ( x > 0 ) , I(x>0), I(x>0), 它在 x > 0 x>0 x>0 时为 1 , 1, 1, 否则为 $0 $。
- 反秩(antirank) : 反秩 D j D_{j} Dj 是由 ∣ X D j ∣ = ∣ X ∣ ( j ) \left|X_{D_{j}}\right|=|X|_{(j)} ∣∣XDj∣∣=∣X∣(j) 定义的.
- 我们还用 W j W_{j} Wj 表示 与 ∣ X ∣ ( j ) |X|_{(j)} ∣X∣(j) 相应的原样本点的示性函数, 即 W j = S ( X D j ) , W_{j}=S\left(X_{D_{j}}\right), Wj=S(XDj), 且称 R j + S ( X j ) R_{j}^{+} S\left(X_{j}\right) Rj+S(Xj) 为符号秩统计量。第j小的元素如果为正,则 W j = 1 W_j=1 Wj=1,若为负,则 W j = 0 W_j=0 Wj=0。
- Wilcoxon 符号秩统计量 定义为
W
+
=
∑
j
=
1
n
j
W
j
=
∑
j
=
1
n
R
j
+
S
(
X
j
)
W^{+}=\sum_{j=1}^{n} j W_{j}=\sum_{j=1}^{n} R_{j}^{+} S\left(X_{j}\right)
W+=j=1∑njWj=j=1∑nRj+S(Xj)
它是正的样本点按绝对值所得秩的和。
设 F ( x − θ ) F(x-\theta) F(x−θ) 对称, 零假设为 H 0 : θ = 0 , H_{0}: \theta=0, H0:θ=0, 有下面 3 个定理.
定理 2.2 2.2 \quad 2.2 如果零假设 H 0 : θ = 0 H_{0}: \theta=0 H0:θ=0 成立 , , , 则 S ( X 1 ) , S ( X 2 ) , ⋯ , S ( X n ) S\left(X_{1}\right), S\left(X_{2}\right), \cdots, S\left(X_{n}\right) S(X1),S(X2),⋯,S(Xn) 独立于 ( R 1 + , R 2 + , ⋯ , R n + ) \left(R_{1}^{+}, R_{2}^{+}, \cdots, R_{n}^{+}\right) (R1+,R2+,⋯,Rn+)
证明:
\quad
事实上, 因为
(
R
1
+
,
R
2
+
,
⋯
,
R
n
+
)
\left(R_{1}^{+}, R_{2}^{+}, \cdots, R_{n}^{+}\right)
(R1+,R2+,⋯,Rn+) 是
∣
X
1
∣
,
∣
X
2
∣
,
⋯
,
∣
X
n
∣
\left|X_{1}\right|,\left|X_{2}\right|, \cdots,\left|X_{n}\right|
∣X1∣,∣X2∣,⋯,∣Xn∣ 的函数, 而出自随机样本的
(
S
(
X
i
)
,
∣
X
j
∣
)
,
i
,
j
=
1
,
2
,
⋯
,
n
,
j
≠
i
\left(S\left(X_{i}\right),\left|X_{j}\right|\right), i, j=1,2, \cdots, n, j \neq i
(S(Xi),∣Xj∣),i,j=1,2,⋯,n,j=i 是互相独立的数据对, 因此我们只要试明
S
(
X
i
)
S\left(X_{i}\right)
S(Xi) 和
∣
X
i
∣
\left|X_{i}\right|
∣Xi∣ 是互相独立的即可。事实上,
P
(
S
(
X
i
)
=
1
,
∣
X
i
∣
⩽
x
)
=
P
(
0
<
X
i
⩽
x
)
=
F
(
x
)
−
F
(
0
)
=
F
(
x
)
−
1
2
=
2
F
(
x
)
−
1
2
=
P
(
S
(
X
i
)
=
1
)
P
(
∣
X
i
∣
⩽
x
)
\begin{aligned} P\left(S\left(X_{i}\right)=1,\left|X_{i}\right| \leqslant x\right) &=P\left(0<X_{i} \leqslant x\right)=F(x)-F(0)=F(x)-\frac{1}{2} \\ &=\frac{2 F(x)-1}{2}=P\left(S\left(X_{i}\right)=1\right) P\left(\left|X_{i}\right| \leqslant x\right) \end{aligned}
P(S(Xi)=1,∣Xi∣⩽x)=P(0<Xi⩽x)=F(x)−F(0)=F(x)−21=22F(x)−1=P(S(Xi)=1)P(∣Xi∣⩽x)
定理 2.3 2.3 \quad 2.3 如果零假设 H 0 : θ = 0 H_{0}: \theta=0 H0:θ=0 成立 , , , 则 S ( X 1 ) , S ( X 2 ) , ⋯ , S ( X n ) S\left(X_{1}\right), S\left(X_{2}\right), \cdots, S\left(X_{n}\right) S(X1),S(X2),⋯,S(Xn) 独立于 ( D 1 , D 2 , ⋯ , D n ) \left(D_{1}, D_{2}, \cdots, D_{n}\right) (D1,D2,⋯,Dn)
定理
2.4
2.4\quad
2.4 如果零假设
H
0
:
θ
=
0
H_{0}: \theta=0
H0:θ=0 成立, 则
W
1
,
W
2
,
⋯
,
W
n
W_{1}, W_{2}, \cdots, W_{n}
W1,W2,⋯,Wn 是独立同分布的, 其分布为
P
(
W
i
=
0
)
=
P
(
W
i
=
1
)
=
1
2
.
P\left(W_{i}=0\right)=P\left(W_{i}=1\right)=\frac{1}{2} .
P(Wi=0)=P(Wi=1)=21.
证明 :
\quad
令
D
=
(
D
1
,
D
2
,
⋯
,
D
n
)
,
d
=
(
d
1
,
d
2
,
⋯
,
d
n
)
,
\boldsymbol{D}=\left(D_{1}, D_{2}, \cdots, D_{n}\right), \boldsymbol{d}=\left(d_{1}, d_{2}, \cdots, d_{n}\right),
D=(D1,D2,⋯,Dn),d=(d1,d2,⋯,dn),
P
(
W
1
=
w
1
,
W
2
=
w
2
,
⋯
,
W
n
=
w
n
)
=
∑
d
P
(
S
(
X
D
1
)
=
w
1
,
S
(
X
D
2
)
=
w
2
,
⋯
,
S
(
X
D
n
)
=
w
n
∣
D
=
d
)
P
(
D
=
d
)
=
∑
d
P
(
S
(
X
d
1
)
=
w
1
,
S
(
X
d
2
)
=
w
2
,
⋯
,
S
(
X
d
n
)
=
w
n
)
P
(
D
=
d
)
=
(
1
2
)
n
∑
d
P
(
D
=
d
)
=
(
1
2
)
n
\begin{aligned} & P\left(W_{1}=w_{1}, W_{2}=w_{2}, \cdots, W_{n}=w_{n}\right) \\ =& \sum_{d} P\left(S\left(X_{D_{1}}\right)=w_{1}, S\left(X_{D_{2}}\right)=w_{2}, \cdots, S\left(X_{D_{n}}\right)=w_{n} \mid \boldsymbol{D}=\boldsymbol{d}\right) P(\boldsymbol{D}=\boldsymbol{d}) \\ =& \sum_{d} P\left(S\left(X_{d_{1}}\right)=w_{1}, S\left(X_{d_{2}}\right)=w_{2}, \cdots, S\left(X_{d_{n}}\right)=w_{n}\right) P(\boldsymbol{D}=\boldsymbol{d}) \\ =&\left(\frac{1}{2}\right)^{n} \sum_{d} P(\boldsymbol{D}=\boldsymbol{d})=\left(\frac{1}{2}\right)^{n} \end{aligned}
===P(W1=w1,W2=w2,⋯,Wn=wn)d∑P(S(XD1)=w1,S(XD2)=w2,⋯,S(XDn)=wn∣D=d)P(D=d)d∑P(S(Xd1)=w1,S(Xd2)=w2,⋯,S(Xdn)=wn)P(D=d)(21)nd∑P(D=d)=(21)n
因此有
P
(
W
1
,
W
2
,
⋯
,
W
n
)
=
∏
i
=
1
n
P
(
W
i
=
w
i
)
P\left(W_{1}, W_{2}, \cdots, W_{n}\right)=\prod_{i=1}^{n} P\left(W_{i}=w_{i}\right)
P(W1,W2,⋯,Wn)=∏i=1nP(Wi=wi) 及
P
(
W
i
=
w
i
)
=
1
2
.
P\left(W_{i}=w_{i}\right)=\frac{1}{2} .
P(Wi=wi)=21.
符号秩的检验过程
假设样本点 X 1 , X 2 , ⋯ , X n X_{1}, X_{2}, \cdots, X_{n} X1,X2,⋯,Xn 来自连续对称总体分布 (符号检验不需要这个假设). 在这个假定下总体中位数等于均值.
它的检验目的和符号检验是一样的, 即要 检验双边问题
H
0
:
M
=
M
0
H_{0}: M=M_{0}
H0:M=M0 或检验单边问题
H
0
:
M
⩽
M
0
H_{0}: M \leqslant M_{0}
H0:M⩽M0 及
H
0
:
M
⩾
M
0
,
H_{0}: M \geqslant M_{0},
H0:M⩾M0,
Wilcoxon 符号秩检验均步骤如下:
(1) 对
i
=
1
,
2
,
⋯
,
n
,
i=1,2, \cdots, n,
i=1,2,⋯,n, 计算
∣
X
i
−
M
0
∣
;
\left|X_{i}-M_{0}\right| ;
∣Xi−M0∣; 它们表示这些样本点到
M
0
M_{0}
M0 的距离.
(2) 将上面
n
n
n 个绝对值排字,并找出它们蛇
n
n
n 个秩; 如果有相同的样本点,每 个点取平均秩.
的
∣
X
i
−
M
0
∣
\left|X_{i}-M_{0}\right|
∣Xi−M0∣ 的秩物和. 注意:
W
+
+
W
−
=
n
(
n
+
1
)
/
2
W^{+}+W^{-}=n(n+1) / 2
W++W−=n(n+1)/2.
(4) 对双边检验
H
0
:
M
=
M
0
↔
H
1
:
M
≠
M
0
,
H_{0}: M=M_{0} \leftrightarrow H_{1}: M \neq M_{0},
H0:M=M0↔H1:M=M0, 在零假设下,
W
+
W^{+}
W+ 和
W
−
W^{-}
W− 应差不多. 因而,当其中之一很小时,应怀疑零假设;因此,取检验统计量
W
=
W=
W=
min
{
W
+
,
W
−
}
.
\min \left\{W^{+}, W^{-}\right\} .
min{W+,W−}. 类似地, 对
H
0
:
M
⩽
M
0
↔
H
1
:
M
>
M
0
H_{0}: M \leqslant M_{0} \leftrightarrow H_{1}: M>M_{0}
H0:M⩽M0↔H1:M>M0 的单边检验取
W
=
W
−
;
W=W^{-} ;
W=W−;
对
H
0
:
M
⩾
M
0
↔
H
1
:
M
<
M
0
H_{0}: M \geqslant M_{0} \leftrightarrow H_{1}: M<M_{0}
H0:M⩾M0↔H1:M<M0 的单边检验取
W
=
W
+
.
W=W^+ .
W=W+.
(5) 根据得到的
W
W
W 值, 查 Wilcoxon 符号秩检验的分布表以得到在零假设下的
p
p
p 值. 如果
n
n
n 很大要用正态近似,得到一个与
W
W
W 有关的正态随机变量
Z
Z
Z 的值, 再 查表得到
p
p
p 值,或直接在软件中计算得到
p
p
p 值。
(6) 如果
p
p
p 值小 (比如小于或寺于给定的显著性水平 0.05 ), 则可以拒绝零假设. 实际上显著性水平
α
\alpha
α 可取任何大于或等于
p
p
p 值的数. 如果
p
p
p 值较大,则没有充分 证据来拒绝零假设,但不意味着接受零假设.
- W + W^+ W+的精确分布
以下给出计算
W
+
W^{+}
W+ 概率的一般方法。首先,
∀
j
\forall j
∀j 有
E
(
exp
(
t
j
W
j
)
)
=
1
2
exp
(
0
)
+
1
2
exp
(
t
j
)
=
1
2
(
1
+
exp
(
t
j
)
)
E\left(\exp \left(t_{j} W_{j}\right)\right)=\frac{1}{2} \exp (0)+\frac{1}{2} \exp \left(t_{j}\right)=\frac{1}{2}\left(1+\exp \left(t_{j}\right)\right)
E(exp(tjWj))=21exp(0)+21exp(tj)=21(1+exp(tj))
计算样本量为
n
n
n 时,
W
+
W^{+}
W+ 的母函数如下:
M
n
(
t
)
=
E
(
exp
(
t
W
+
)
)
=
E
(
exp
(
t
∑
j
W
j
)
)
=
∏
j
E
(
exp
(
t
j
W
j
)
)
=
1
2
n
∏
j
=
1
n
(
1
+
e
t
j
)
\begin{aligned} M_{n}(t) &=E\left(\exp \left(t W^{+}\right)\right)=E\left(\exp \left(t \sum j W_{j}\right)\right) \\ &=\prod_{j} E\left(\exp \left(t j W_{j}\right)\right)=\frac{1}{2^{n}} \prod_{j=1}^{n}\left(1+\mathrm{e}^{t j}\right) \end{aligned}
Mn(t)=E(exp(tW+))=E(exp(t∑jWj))=j∏E(exp(tjWj))=2n1j=1∏n(1+etj)
母函数有展开式
M
(
t
)
=
a
0
+
a
1
e
t
+
a
2
e
2
t
+
⋯
M(t)=a_{0}+a_{1} \mathrm{e}^{t}+a_{2} \mathrm{e}^{2 t}+\cdots
M(t)=a0+a1et+a2e2t+⋯
则 $P_{H_{0}}\left(W^{+}=j\right)=a_{j} $。
- W + W^+ W+的大样本分布
可利用正态近似。
E
(
W
+
)
=
E
(
∑
j
W
j
)
=
1
2
∑
j
=
1
n
j
=
1
2
n
(
n
+
1
)
2
=
1
4
n
(
n
+
1
)
var
(
W
+
)
=
var
(
∑
j
W
j
)
=
1
4
∑
j
n
j
2
=
1
24
n
(
n
+
1
)
(
2
n
+
1
)
\begin{array}{l} E\left(W^{+}\right)=E\left(\sum j W_{j}\right)=\frac{1}{2} \sum_{j=1}^{n} j=\frac{1}{2} \frac{n(n+1)}{2}=\frac{1}{4} n(n+1) \\ \operatorname{var}\left(W^{+}\right)=\operatorname{var}\left(\sum j W_{j}\right)=\frac{1}{4} \sum_{j}^{n} j^{2}=\frac{1}{24} n(n+1)(2 n+1) \end{array}
E(W+)=E(∑jWj)=21∑j=1nj=212n(n+1)=41n(n+1)var(W+)=var(∑jWj)=41∑jnj2=241n(n+1)(2n+1)
在零假设下由此可构造大样本渐近正态统计量, 零假设下的近似计算如下:
Z
=
W
+
−
n
(
n
+
1
)
/
4
n
(
n
+
1
)
(
2
n
+
1
)
/
24
→
L
N
(
0
,
1
)
Z=\frac{W^{+}-n(n+1) / 4}{\sqrt{n(n+1)(2 n+1) / 24}} \stackrel{\mathcal{L}}{\rightarrow} N(0,1)
Z=n(n+1)(2n+1)/24W+−n(n+1)/4→LN(0,1)
计算出
Z
Z
Z 值后,可由正态分布表查出检验统计量对应的
p
p
p 值, 如果
p
p
p 值过小, 则拒 她零假设
H
0
:
θ
=
M
0
H_{0}: \theta=M_{0}
H0:θ=M0. 小样本情况下使用连续性修正, 如下所示:
Z
=
W
+
−
n
(
n
+
1
)
/
4
+
C
n
(
n
+
1
)
(
2
n
+
1
)
/
24
→
L
N
(
0
,
1
)
Z=\frac{W^{+}-n(n+1) / 4 + C}{\sqrt{n(n+1)(2 n+1) / 24}} \stackrel{\mathcal{L}}{\rightarrow} N(0,1)
Z=n(n+1)(2n+1)/24W+−n(n+1)/4+C→LN(0,1)
当
W
+
>
n
(
n
+
1
)
/
4
W^{+}>n(n+1) / 4
W+>n(n+1)/4 时, 用正连续性修正,
C
=
0.5
C=0.5
C=0.5; 当
W
+
<
n
(
n
+
1
)
/
4
W^{+}<n(n+1) / 4
W+<n(n+1)/4 时, 用 负连续性修正,
C
=
−
0.5.
C=-0.5 .
C=−0.5.