第六章 非参数假设检验(1)
1.非参数假设检验概述
对于给定分布族的情况,假设检验主要对其中的未知参数进行假设并检验;对于样本分布族未给出其数学形式的情况,只给出其对称性、连续性等假设,这种统计问题是非参数的,要运用与数学形式无关的统计推断方法,即非参数方法。
非参数方法的特点有,适用面广而针对性差,比较依赖于大样本理论,只能使用样本中的“一般”信息(如位置、次序关系),具有稳健性(即真实的模型与设定的理论模型有一定偏离时也能保持较好的性质)。
2.符号检验法
符号检验法适用于相互独立的两样本的成对数据。现有取自两个独立总体的样本
X
=
(
X
1
,
⋯
,
X
N
)
,
Y
=
(
Y
1
,
⋯
,
Y
N
)
\boldsymbol X=(X_1,\cdots,X_N),\boldsymbol Y=(Y_1,\cdots,Y_N)
X=(X1,⋯,XN),Y=(Y1,⋯,YN),要比较两个总体的均值大小,则取
Z
i
=
X
i
−
Y
i
,
S
i
=
{
+
,
Z
i
>
0
,
−
,
Z
i
<
0
,
0
,
Z
i
=
0.
Z_i=X_i-Y_i,S_i=\left\{ \begin{array}{l} +,&Z_i>0,\\ -,&Z_i<0,\\ 0,&Z_i=0. \end{array} \right.
Zi=Xi−Yi,Si=⎩⎨⎧+,−,0,Zi>0,Zi<0,Zi=0.
如假设
N
N
N个
S
i
S_i
Si中,
+
+
+的个数为
n
+
n_+
n+,
−
-
−的个数为
n
−
n-
n−,记
n
=
n
+
+
n
−
n=n_++n_-
n=n++n−,这就相当于剔除0结果。如果原假设为
H
0
:
两
个
样
本
均
值
相
等
H_0:两个样本均值相等
H0:两个样本均值相等,则每一个非0结果出现
+
,
−
+,-
+,−的概率应该是
θ
=
1
/
2
\theta=1/2
θ=1/2。记
X
=
n
+
X=n_+
X=n+,则在
H
0
H_0
H0成立的前提下,有
X
∼
b
(
n
,
θ
)
X\sim b(n,\theta)
X∼b(n,θ),这就转化为参数检验
H
0
′
:
θ
=
1
/
2
H_0':\theta=1/2
H0′:θ=1/2。同理,如果
H
0
H_0
H0是
X
X
X总体均值与
Y
Y
Y总体均值不等,则相应也能转化为二项分布参数的单边检验。
回到
H
0
′
:
θ
=
1
/
2
↔
H
1
′
:
θ
≠
1
/
2
H_0':\theta=1/2\leftrightarrow H_1':\theta\neq 1/2
H0′:θ=1/2↔H1′:θ=1/2的检验,取
X
=
n
+
X=n_+
X=n+为检验统计量,则否定域的形式应该为
D
=
{
X
<
c
或
X
>
d
}
D=\{X<c或X>d\}
D={X<c或X>d},且
P
{
X
∈
D
∣
H
0
}
=
α
\mathbf P\{X\in D|H_0\}=\alpha
P{X∈D∣H0}=α,因此可以如下计算
c
,
d
c,d
c,d:
∑
i
=
0
c
C
n
i
(
1
2
)
n
≤
α
/
2
,
d
=
n
−
c
\sum_{i=0}^c C_n^i(\frac{1}{2})^n\le\alpha/2,d=n-c
i=0∑cCni(21)n≤α/2,d=n−c
检验的
p
p
p值可以如下计算:记
x
0
′
=
min
(
x
0
′
,
n
−
x
0
′
)
x_0'=\min{(x_0',n-x_0')}
x0′=min(x0′,n−x0′),于是
p
=
∑
i
=
0
x
0
′
C
n
i
(
1
2
)
n
+
∑
j
=
n
−
x
0
′
n
C
n
j
(
1
2
)
n
p=\sum_{i=0}^{x_0'}C_n^i(\frac12)^n+\sum_{j=n-{x_0'}}^nC_n^j(\frac12)^n
p=i=0∑x0′Cni(21)n+j=n−x0′∑nCnj(21)n
如果
p
p
p值越大,接受假设的把握也越大,因此可以给定检验水平
α
\alpha
α,当
p
≥
α
p\ge\alpha
p≥α时接受
H
0
H_0
H0,否则拒绝
H
0
H_0
H0。
如果是大样本情形,则由中心极限定理,当
H
0
H_0
H0成立且
n
→
∞
n\to \infty
n→∞时有
U
=
X
−
E
(
X
)
D
(
X
)
=
X
−
n
/
2
n
/
4
⟶
L
N
(
0
,
1
)
U=\frac{X-E(X)}{\sqrt {D(X)}}=\frac{X-n/2}{\sqrt {n/4}}\stackrel{\mathscr L}{\longrightarrow}N(0,1)
U=D(X)X−E(X)=n/4X−n/2⟶LN(0,1)
这样就可以用
U
U
U检验了。
符号检验法既可以用来检验成对数据是否来自的总体是否一致,又能够用于检验总体的分位数情况,只要用 X i − α p X_i-\alpha_p Xi−αp作为符号检验的对象就行了。
3.符号秩和检验
符号检验法在转化 Z i Z_i Zi时丢失了 Z i Z_i Zi的数据只保留符号,这种信息的丢失使得符号检验的效率有所降低。符号秩和检验法是符号检验的改进。
首先要提出样本秩的概念,设 X 1 , ⋯ , X n X_1,\cdots,X_n X1,⋯,Xn是两两不相等的一组样本,将其按大小排列为 X ( 1 ) < ⋯ < X ( n ) X_{(1)}<\cdots<X_{(n)} X(1)<⋯<X(n),如果 X i = X ( R i ) X_i=X_{(R_i)} Xi=X(Ri),则称 X i X_i Xi在这组样本中的秩是 R i R_i Ri。简而言之,样本秩就是某一个样本在全部样本中的大小排位,最小为1,最大为 n n n。而如果样本来自连续分布 F ( x ) F(x) F(x),那么 X 1 , ⋯ , X n X_1,\cdots,X_n X1,⋯,Xn就是以概率1两两不等的。
秩统计量是 ( X 1 , ⋯ , X n ) (X_1,\cdots,X_n) (X1,⋯,Xn)的秩按顺序排列成的数组 R = ( R 1 , ⋯ , R n ) \boldsymbol R=(R_1,\cdots,R_n) R=(R1,⋯,Rn),由于给定样本观测值就能确定其秩,所以秩统计量是样本的函数。基于秩统计量的方法就称为秩检验。
在符号检验法中加入秩检验,记
R
=
(
R
1
,
⋯
,
R
n
)
\boldsymbol R=(R_1,\cdots,R_n)
R=(R1,⋯,Rn)为
∣
Z
i
∣
|Z_i|
∣Zi∣的秩统计量,并且记符号统计量为
V
ˉ
i
=
I
(
0
,
∞
)
(
Z
i
)
\bar V_i=I_{(0,\infty)}(Z_i)
Vˉi=I(0,∞)(Zi),用
R
i
R_i
Ri和
V
ˉ
i
\bar V_i
Vˉi就记录了
Z
i
Z_i
Zi的符号与数值排位,定义Wilcoxon符号秩和为检验统计量,即
W
+
=
∑
i
=
1
n
V
ˉ
i
R
i
W^+=\sum_{i=1}^n\bar V_iR_i
W+=i=1∑nVˉiRi
也就是秩统计量中符号为正的秩之和。回到统计问题中,如果两个总体中
X
X
X的均值大于
Y
Y
Y的,则
+
+
+的符号偏多,且它们的秩也偏大,所以
W
+
W^+
W+应该偏大;如果
−
-
−的符号偏多,
W
+
W^+
W+就应该偏小,所以双边检验的否定域是
D
=
{
W
+
≤
d
或
W
+
≥
c
}
D=\{W^+\le d或W^+\ge c\}
D={W+≤d或W+≥c}。同理可以推断单边检验的否定域。
c
c
c的值可以通过表格查询,
d
=
n
(
n
+
1
)
2
−
c
d=\frac{n(n+1)}{2}-c
d=2n(n+1)−c。
在大样本情形下,由于
E
(
W
+
)
=
n
(
n
+
1
)
4
,
D
(
W
+
)
=
n
(
n
+
1
)
(
2
n
+
1
)
24
E(W^+)=\frac{n(n+1)}{4},D(W^+)=\frac{n(n+1)(2n+1)}{24}
E(W+)=4n(n+1),D(W+)=24n(n+1)(2n+1),所以有
W
∗
+
=
W
∗
−
n
(
n
+
1
)
/
4
n
(
n
+
1
)
(
2
n
+
1
)
/
24
⟶
L
N
(
0
,
1
)
W^+_*=\frac{W^*-n(n+1)/4}{\sqrt{n(n+1)(2n+1)/24}}\stackrel{\mathscr L}{\longrightarrow }N(0,1)
W∗+=n(n+1)(2n+1)/24W∗−n(n+1)/4⟶LN(0,1)
4.Wilcoxon两样本秩和检验
这种方法适用于两样本检验问题,假设 X 1 , ⋯ , X m ∼ F 1 , Y 1 , ⋯ , Y n ∼ F 2 X_1,\cdots,X_m\sim F_1,Y_1,\cdots,Y_n \sim F_2 X1,⋯,Xm∼F1,Y1,⋯,Yn∼F2,且两组样本相互独立,要验证的假设是 H 0 : F 1 = F 2 ↔ H 1 : F 1 ≠ F 2 H_0:F_1=F_2\leftrightarrow H_1:F_1\neq F_2 H0:F1=F2↔H1:F1=F2。现讨论一种给定条件适中的情况,即假设对总体做出的改变只让概率分布发生一些平移,即 X ∼ F ( x ) , Y ∼ F ( x − θ ) \boldsymbol X\sim F(x),\boldsymbol Y\sim F(x-\theta) X∼F(x),Y∼F(x−θ),假设检验就是 H 0 : θ = 0 ↔ H 1 : θ ≠ 0 H_0:\theta=0\leftrightarrow H_1:\theta\neq0 H0:θ=0↔H1:θ=0。虽然假设中体现了参数,但是由于整体分布未知,这依然是一个非参数假设检验的问题。
先定义Wilcoxon两样本秩,如果 X 1 , ⋯ , X m , Y 1 , ⋯ , Y n X_1,\cdots,X_m,Y_1,\cdots,Y_n X1,⋯,Xm,Y1,⋯,Yn两两不等,从小到大排列的结果为 Z 1 < ⋯ < Z N , N = m + n Z_1<\cdots<Z_N,N=m+n Z1<⋯<ZN,N=m+n,将 Y i Y_i Yi在合样本中的秩相加记作 W W W,称 W W W为Wilcoxon两样本秩和统计量。
显然,如果 θ = 0 \theta=0 θ=0,那么 W W W不会太大也不会太小,拒绝域就应该形如 D = { W ≤ d 或 W ≥ c } D=\{W\le d或W\ge c\} D={W≤d或W≥c},对于较小的 m , n m,n m,n, c c c的值可以通过表格查询,而 d = n ( m + n − 1 ) − c d=n(m+n-1)-c d=n(m+n−1)−c。
在大样本情形下,有
E
(
W
)
=
n
(
N
+
1
)
2
,
D
(
W
)
=
m
n
(
N
+
1
)
12
W
∗
=
W
−
E
(
W
)
D
(
W
)
=
W
−
n
(
N
+
1
)
/
2
m
n
(
m
+
n
+
1
)
/
12
⟶
L
N
(
0
,
1
)
E(W)=\frac{n(N+1)}2,D(W)=\frac{mn(N+1)}{12}\\ W^*=\frac{W-E(W)}{\sqrt {D(W)}}=\frac{W-n(N+1)/2}{\sqrt {mn(m+n+1)/12}}\stackrel{\mathscr L}{\longrightarrow }N(0,1)
E(W)=2n(N+1),D(W)=12mn(N+1)W∗=D(W)W−E(W)=mn(m+n+1)/12W−n(N+1)/2⟶LN(0,1)