15.第六章 非参数假设检验(1)

第六章 非参数假设检验(1)

1.非参数假设检验概述

对于给定分布族的情况,假设检验主要对其中的未知参数进行假设并检验;对于样本分布族未给出其数学形式的情况,只给出其对称性、连续性等假设,这种统计问题是非参数的,要运用与数学形式无关的统计推断方法,即非参数方法。

非参数方法的特点有,适用面广而针对性差,比较依赖于大样本理论,只能使用样本中的“一般”信息(如位置、次序关系),具有稳健性(即真实的模型与设定的理论模型有一定偏离时也能保持较好的性质)。

2.符号检验法

符号检验法适用于相互独立的两样本的成对数据。现有取自两个独立总体的样本 X = ( X 1 , ⋯   , X N ) , Y = ( Y 1 , ⋯   , Y N ) \boldsymbol X=(X_1,\cdots,X_N),\boldsymbol Y=(Y_1,\cdots,Y_N) X=(X1,,XN),Y=(Y1,,YN),要比较两个总体的均值大小,则取
Z i = X i − Y i , S i = { + , Z i > 0 , − , Z i < 0 , 0 , Z i = 0. Z_i=X_i-Y_i,S_i=\left\{ \begin{array}{l} +,&Z_i>0,\\ -,&Z_i<0,\\ 0,&Z_i=0. \end{array} \right. Zi=XiYi,Si=+,,0,Zi>0,Zi<0,Zi=0.
如假设 N N N S i S_i Si中, + + +的个数为 n + n_+ n+ − - 的个数为 n − n- n,记 n = n + + n − n=n_++n_- n=n++n,这就相当于剔除0结果。如果原假设为 H 0 : 两 个 样 本 均 值 相 等 H_0:两个样本均值相等 H0:,则每一个非0结果出现 + , − +,- +,的概率应该是 θ = 1 / 2 \theta=1/2 θ=1/2。记 X = n + X=n_+ X=n+,则在 H 0 H_0 H0成立的前提下,有 X ∼ b ( n , θ ) X\sim b(n,\theta) Xb(n,θ),这就转化为参数检验 H 0 ′ : θ = 1 / 2 H_0':\theta=1/2 H0:θ=1/2。同理,如果 H 0 H_0 H0 X X X总体均值与 Y Y Y总体均值不等,则相应也能转化为二项分布参数的单边检验。

回到 H 0 ′ : θ = 1 / 2 ↔ H 1 ′ : θ ≠ 1 / 2 H_0':\theta=1/2\leftrightarrow H_1':\theta\neq 1/2 H0:θ=1/2H1:θ=1/2的检验,取 X = n + X=n_+ X=n+为检验统计量,则否定域的形式应该为 D = { X < c 或 X > d } D=\{X<c或X>d\} D={X<cX>d},且 P { X ∈ D ∣ H 0 } = α \mathbf P\{X\in D|H_0\}=\alpha P{XDH0}=α,因此可以如下计算 c , d c,d c,d
∑ i = 0 c C n i ( 1 2 ) n ≤ α / 2 , d = n − c \sum_{i=0}^c C_n^i(\frac{1}{2})^n\le\alpha/2,d=n-c i=0cCni(21)nα/2,d=nc
检验的 p p p值可以如下计算:记 x 0 ′ = min ⁡ ( x 0 ′ , n − x 0 ′ ) x_0'=\min{(x_0',n-x_0')} x0=min(x0,nx0),于是
p = ∑ i = 0 x 0 ′ C n i ( 1 2 ) n + ∑ j = n − x 0 ′ n C n j ( 1 2 ) n p=\sum_{i=0}^{x_0'}C_n^i(\frac12)^n+\sum_{j=n-{x_0'}}^nC_n^j(\frac12)^n p=i=0x0Cni(21)n+j=nx0nCnj(21)n
如果 p p p值越大,接受假设的把握也越大,因此可以给定检验水平 α \alpha α,当 p ≥ α p\ge\alpha pα时接受 H 0 H_0 H0,否则拒绝 H 0 H_0 H0

如果是大样本情形,则由中心极限定理,当 H 0 H_0 H0成立且 n → ∞ n\to \infty n时有
U = X − E ( X ) D ( X ) = X − n / 2 n / 4 ⟶ L N ( 0 , 1 ) U=\frac{X-E(X)}{\sqrt {D(X)}}=\frac{X-n/2}{\sqrt {n/4}}\stackrel{\mathscr L}{\longrightarrow}N(0,1) U=D(X) XE(X)=n/4 Xn/2LN(0,1)
这样就可以用 U U U检验了。

符号检验法既可以用来检验成对数据是否来自的总体是否一致,又能够用于检验总体的分位数情况,只要用 X i − α p X_i-\alpha_p Xiαp作为符号检验的对象就行了。

3.符号秩和检验

符号检验法在转化 Z i Z_i Zi时丢失了 Z i Z_i Zi的数据只保留符号,这种信息的丢失使得符号检验的效率有所降低。符号秩和检验法是符号检验的改进。

首先要提出样本秩的概念,设 X 1 , ⋯   , X n X_1,\cdots,X_n X1,,Xn是两两不相等的一组样本,将其按大小排列为 X ( 1 ) < ⋯ < X ( n ) X_{(1)}<\cdots<X_{(n)} X(1)<<X(n),如果 X i = X ( R i ) X_i=X_{(R_i)} Xi=X(Ri),则称 X i X_i Xi在这组样本中的秩是 R i R_i Ri。简而言之,样本秩就是某一个样本在全部样本中的大小排位,最小为1,最大为 n n n。而如果样本来自连续分布 F ( x ) F(x) F(x),那么 X 1 , ⋯   , X n X_1,\cdots,X_n X1,,Xn就是以概率1两两不等的。

秩统计量是 ( X 1 , ⋯   , X n ) (X_1,\cdots,X_n) (X1,,Xn)的秩按顺序排列成的数组 R = ( R 1 , ⋯   , R n ) \boldsymbol R=(R_1,\cdots,R_n) R=(R1,,Rn),由于给定样本观测值就能确定其秩,所以秩统计量是样本的函数。基于秩统计量的方法就称为秩检验。

在符号检验法中加入秩检验,记 R = ( R 1 , ⋯   , R n ) \boldsymbol R=(R_1,\cdots,R_n) R=(R1,,Rn) ∣ Z i ∣ |Z_i| Zi的秩统计量,并且记符号统计量为 V ˉ i = I ( 0 , ∞ ) ( Z i ) \bar V_i=I_{(0,\infty)}(Z_i) Vˉi=I(0,)(Zi),用 R i R_i Ri V ˉ i \bar V_i Vˉi就记录了 Z i Z_i Zi的符号与数值排位,定义Wilcoxon符号秩和为检验统计量,即
W + = ∑ i = 1 n V ˉ i R i W^+=\sum_{i=1}^n\bar V_iR_i W+=i=1nVˉiRi
也就是秩统计量中符号为正的秩之和。回到统计问题中,如果两个总体中 X X X的均值大于 Y Y Y的,则 + + +的符号偏多,且它们的秩也偏大,所以 W + W^+ W+应该偏大;如果 − - 的符号偏多, W + W^+ W+就应该偏小,所以双边检验的否定域是 D = { W + ≤ d 或 W + ≥ c } D=\{W^+\le d或W^+\ge c\} D={W+dW+c}。同理可以推断单边检验的否定域。 c c c的值可以通过表格查询, d = n ( n + 1 ) 2 − c d=\frac{n(n+1)}{2}-c d=2n(n+1)c

在大样本情形下,由于 E ( W + ) = n ( n + 1 ) 4 , D ( W + ) = n ( n + 1 ) ( 2 n + 1 ) 24 E(W^+)=\frac{n(n+1)}{4},D(W^+)=\frac{n(n+1)(2n+1)}{24} E(W+)=4n(n+1),D(W+)=24n(n+1)(2n+1),所以有
W ∗ + = W ∗ − n ( n + 1 ) / 4 n ( n + 1 ) ( 2 n + 1 ) / 24 ⟶ L N ( 0 , 1 ) W^+_*=\frac{W^*-n(n+1)/4}{\sqrt{n(n+1)(2n+1)/24}}\stackrel{\mathscr L}{\longrightarrow }N(0,1) W+=n(n+1)(2n+1)/24 Wn(n+1)/4LN(0,1)

4.Wilcoxon两样本秩和检验

这种方法适用于两样本检验问题,假设 X 1 , ⋯   , X m ∼ F 1 , Y 1 , ⋯   , Y n ∼ F 2 X_1,\cdots,X_m\sim F_1,Y_1,\cdots,Y_n \sim F_2 X1,,XmF1,Y1,,YnF2,且两组样本相互独立,要验证的假设是 H 0 : F 1 = F 2 ↔ H 1 : F 1 ≠ F 2 H_0:F_1=F_2\leftrightarrow H_1:F_1\neq F_2 H0:F1=F2H1:F1=F2。现讨论一种给定条件适中的情况,即假设对总体做出的改变只让概率分布发生一些平移,即 X ∼ F ( x ) , Y ∼ F ( x − θ ) \boldsymbol X\sim F(x),\boldsymbol Y\sim F(x-\theta) XF(x),YF(xθ),假设检验就是 H 0 : θ = 0 ↔ H 1 : θ ≠ 0 H_0:\theta=0\leftrightarrow H_1:\theta\neq0 H0:θ=0H1:θ=0。虽然假设中体现了参数,但是由于整体分布未知,这依然是一个非参数假设检验的问题。

先定义Wilcoxon两样本秩,如果 X 1 , ⋯   , X m , Y 1 , ⋯   , Y n X_1,\cdots,X_m,Y_1,\cdots,Y_n X1,,Xm,Y1,,Yn两两不等,从小到大排列的结果为 Z 1 < ⋯ < Z N , N = m + n Z_1<\cdots<Z_N,N=m+n Z1<<ZN,N=m+n,将 Y i Y_i Yi在合样本中的秩相加记作 W W W,称 W W W为Wilcoxon两样本秩和统计量。

显然,如果 θ = 0 \theta=0 θ=0,那么 W W W不会太大也不会太小,拒绝域就应该形如 D = { W ≤ d 或 W ≥ c } D=\{W\le d或W\ge c\} D={WdWc},对于较小的 m , n m,n m,n c c c的值可以通过表格查询,而 d = n ( m + n − 1 ) − c d=n(m+n-1)-c d=n(m+n1)c

在大样本情形下,有
E ( W ) = n ( N + 1 ) 2 , D ( W ) = m n ( N + 1 ) 12 W ∗ = W − E ( W ) D ( W ) = W − n ( N + 1 ) / 2 m n ( m + n + 1 ) / 12 ⟶ L N ( 0 , 1 ) E(W)=\frac{n(N+1)}2,D(W)=\frac{mn(N+1)}{12}\\ W^*=\frac{W-E(W)}{\sqrt {D(W)}}=\frac{W-n(N+1)/2}{\sqrt {mn(m+n+1)/12}}\stackrel{\mathscr L}{\longrightarrow }N(0,1) E(W)=2n(N+1)D(W)=12mn(N+1)W=D(W) WE(W)=mn(m+n+1)/12 Wn(N+1)/2LN(0,1)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值