16.第六章 非参数假设检验(2)

第六章 非参数假设检验(2)

1.拟合优度检验

拟合优度,即利用总体 X X X中抽取的样本 X 1 , ⋯   , X n X_1,\cdots,X_n X1,,Xn,来检验 H 0 : r.v.  X 的 分 布 为 F H_0:\text{r.v. }X的分布为F H0:r.v. XF这一假设。然而,对于总体分布,用符号、不符合这种说法未免过于绝对,因此通常是提出一个介于0到1之间的数值来衡量拟合的优劣程度,称作拟合优度。

拟合优度一般如此定义: p ( d 0 ) = P ( D ≥ d 0 ∣ H 0 ) p(d_0)=P(D\ge d_0|H_0) p(d0)=P(Dd0H0),这里 D D D是一种样本之于给定分布的偏差,是一个统计量,有许多的定义方式; d 0 d_0 d0就是统计量 D D D对于给定样本的观测值。

当理论分布完全已知的时候,可以采用Pearson χ 2 \chi^2 χ2检验,它又分为几种类型。

  1. 随机变量 X X X为离散型,且只取有限个值 a 1 , ⋯   , a r a_1,\cdots,a_r a1,,ar的情形。

    X 1 , ⋯   , X n X_1,\cdots,X_n X1,,Xn为从总体 X X X中抽取的简单样本,理论分布为
    F : ( a 1 a 2 ⋯ a r p 1 p 2 ⋯ p r ) F:\left( \begin{array}{c} a_1&a_2&\cdots&a_r\\ p_1&p_2&\cdots&p_r \end{array} \right) F:(a1p1a2p2arpr)
    p 1 , ⋯   , p r p_1,\cdots,p_r p1,,pr已知, ∑ i = 1 r p i = 1 \sum_{i=1}^r p_i=1 i=1rpi=1,检验的问题表示为
    H 0 : P ( X = a i ) = p i , i = 1 , ⋯   , r H_0:P(X=a_i)=p_i,\quad i=1,\cdots,r H0:P(X=ai)=pi,i=1,,r
    X 1 , ⋯   , X n X_1,\cdots,X_n X1,,Xn中,等于 a i a_i ai的个数为 ν i \nu_i νi(观察频数),按照分布 F F F的理想情况,每一个 a i a_i ai对应的理论频数应该是 n p i np_i npi,当 n n n充分大的时候观察频数应该趋近于理论频数,因此取检验统计量为 ∑ i = 1 r c i ( ν i / n − p i ) 2 \sum_{i=1}^rc_i(\nu_i/n-p_i)^2 i=1rci(νi/npi)2,特别地,取 c i = n / p i c_i=n/p_i ci=n/pi,得到
    K n = ∑ i = 1 r ( ν i − n p i ) 2 n p i ⟶ L χ r − 1 2 K_n=\sum_{i=1}^r \frac{(\nu_i-np_i)^2}{np_i}\stackrel{\mathscr L}{\longrightarrow }\chi^2_{r-1} Kn=i=1rnpi(νinpi)2Lχr12
    这样,当 K n K_n Kn过大,具体地说就是 K n > χ r − 1 2 ( α ) K_n>\chi^2_{r-1}(\alpha) Kn>χr12(α)时拒绝 H 0 H_0 H0。按照前面的方式定义拟合优度,就是
    p ( k 0 ) = P ( K n ≥ k 0 ∣ H 0 ) ≈ P ( χ r − 1 2 ≥ k 0 ) p(k_0)=\mathbf P(K_n\ge k_0|H_0)\approx\mathbf P(\chi^2_{r-1}\ge k_0) p(k0)=P(Knk0H0)P(χr12k0)

  2. 理论分布为任一确定分布的情形。

    此时,取 r − 1 r-1 r1个常数 a 0 = − ∞ < a 1 < ⋯ < a r = ∞ a_0=-\infty<a_1<\cdots<a_r=\infty a0=<a1<<ar=,将数轴划分成 r r r个子区间 I i = [ a i − 1 , a i ) I_i=[a_{i-1},a_i) Ii=[ai1,ai)(负无穷处为开区间),并计算样本落在 I i I_i Ii上的概率 p i = F ( a i ) − F ( a i − 1 ) p_i=F(a_i)-F(a_{i-1}) pi=F(ai)F(ai1),将其作为理论概率。这样,就转化成了理论分布为有限维离散分布的情形。

  3. 理论分布带有未知参数的情形。

    这时的假设就变成 H 0 : r.v.  X ∼ F ( x , θ 1 0 , ⋯   , θ s 0 ) H_0:\text{r.v. }X\sim F(x,\theta_1^0,\cdots,\theta_s^0) H0:r.v. XF(x,θ10,,θs0),也就是存在这样一组参数让总体符合分布。

    对上一情况直接推广,设 p j ( θ ) = P ( X ∈ I j ) = F ( a j ; θ ) − F ( a j − 1 ; θ ) p_j(\boldsymbol \theta)=\mathbf P(X\in I_j)=F(a_j;\boldsymbol \theta)-F(a_{j-1};\boldsymbol \theta) pj(θ)=P(XIj)=F(aj;θ)F(aj1;θ),类似地可以求出
    K n ( θ ) = ∑ j = 1 r ( ν i − n p i ( θ ) ) 2 n p i ( θ ) K_n(\boldsymbol \theta)=\sum_{j=1}^r \frac{(\nu_i-np_i(\boldsymbol \theta))^2}{np_i(\boldsymbol \theta)} Kn(θ)=j=1rnpi(θ)(νinpi(θ))2
    此时的 K n ( θ ) K_n(\boldsymbol \theta) Kn(θ)由于 θ \boldsymbol \theta θ的存在还不能作为统计量,所以要对 θ \boldsymbol \theta θ作出估计,用 θ ^ \hat {\boldsymbol \theta} θ^代入 K n ( θ ) K_n(\boldsymbol \theta) Kn(θ),其中 θ ^ \hat {\boldsymbol \theta} θ^也由样本 X \boldsymbol X X使用极大似然方法估计出,并且有
    K n ( θ ^ ) ⟶ L χ r − 1 − s 2 K_n(\hat {\boldsymbol \theta})\stackrel{\mathscr L}{\longrightarrow }\chi^2_{r-1-s} Kn(θ^)Lχr1s2
    这样,当 K n ( θ ^ ) K_n(\hat {\boldsymbol \theta}) Kn(θ^)过大,即 K n ( θ ^ ) > χ r − 1 − s 2 ( α ) K_n(\hat {\boldsymbol \theta})>\chi^2_{r-1-s}(\alpha) Kn(θ^)>χr1s2(α),则否定原假设。拟合优度自然就是 p ( k 0 ∗ ) = P ( K n ( θ ^ ) ≥ k 0 ∗ ) ≈ P ( χ r − 1 − s 2 ≥ k 0 ∗ ) p(k_0^*)=\mathbf P(K_n(\hat{\boldsymbol \theta})\ge k_0^*)\approx\mathbf P(\chi^2_{r-1-s}\ge k_0^*) p(k0)=P(Kn(θ^)k0)P(χr1s2k0)

2.列联表中的独立性检验

列联表主要是用于检验样本的两个属性之间是否独立的。假设总体中的每一个个体都可以按 A , B A,B A,B属性分类,属性 A A A r r r个水平,分别是 A 1 , ⋯   , A r A_1,\cdots,A_r A1,,Ar;属性 B B B s s s个水平 B 1 , ⋯   , B s B_1,\cdots,B_s B1,,Bs,这样,每个个体的观察结果为随机向量 X = ( X ( 1 ) , X ( 2 ) ) X=(X^{(1)},X^{(2)}) X=(X(1),X(2)),第 X i X_i Xi个个体的观察结果为 ( A r i , B s i ) (A_{r_i},B_{s_i}) (Ari,Bsi)。一共有 n n n个个体,且属性为 ( A i , B j ) (A_i,B_j) (Ai,Bj)的个体有 n i j n_{ij} nij个,将数量列入表格,就做成 r × s r\times s r×s列联表。要验证的假设是
H 0 : X ( 1 ) , X ( 2 ) 独 立 H_0:X^{(1)},X^{(2)}独立 H0:X(1),X(2)
现在将 A A A的水平记作 1 , ⋯   , r 1,\cdots,r 1,,r B B B的水平记作 1 , ⋯   , s 1,\cdots,s 1,,s。如果记 P ( X ( 1 ) = i , X ( 2 ) = j ) = p i j \mathbf P(X^{(1)}=i,X^{(2)}=j)=p_{ij} P(X(1)=i,X(2)=j)=pij,如果 H 0 H_0 H0成立,则有
p i j = P ( X ( 1 ) = i , X ( 2 ) = j ) = P ( X ( 1 ) = i ) P ( X ( 2 ) = j ) = p i ⋅ p ⋅ j p i ⋅ = ∑ j = 1 s p i j , p ⋅ j = ∑ i = 1 r p i j p_{ij}=\mathbf P(X^{(1)}=i,X^{(2)}=j)=\mathbf P(X^{(1)}=i)\mathbf P(X^{(2)}=j)=p_{i\cdot}p_{\cdot j}\\ p_{i\cdot}=\sum_{j=1}^sp_{ij},\quad p_{\cdot j}=\sum_{i=1}^r p_{ij} pij=P(X(1)=i,X(2)=j)=P(X(1)=i)P(X(2)=j)=pipjpi=j=1spij,pj=i=1rpij
所以原假设 H 0 H_0 H0转化为 H 0 : p i j = p i ⋅ p ⋅ j , ∀ i , j H_0:p_{ij}=p_{i\cdot}p_{\cdot j},\forall i,j H0:pij=pipj,i,j。此时如果将 p i ⋅ , p ⋅ j p_{i\cdot},p_{\cdot j} pi,pj视为参数,则独立的未知参数有 s + r − 2 s+r-2 s+r2个,此时计算得 χ 2 \chi^2 χ2统计量的值为
K n ∗ = n ( ∑ i = 1 r ∑ j = 1 s n i j 2 n i ⋅ n ⋅ j − 1 ) K_n^*=n\left(\sum_{i=1}^r\sum_{j=1}^s\frac{n_{ij}^2}{n_{i\cdot}n_{\cdot j}}-1\right) Kn=n(i=1rj=1sninjnij21)
H 0 H_0 H0时且 n → ∞ n\to \infty n时,有 K n ∗ ⟶ L χ ( r − 1 ) ( s − 1 ) 2 K_n^*\stackrel{\mathscr L}{\longrightarrow }\chi^2_{(r-1)(s-1)} KnLχ(r1)(s1)2,如果两个属性独立则 K n ∗ K_n^* Kn不应该过大。如果 K n ∗ > χ ( r − 1 ) ( s − 1 ) 2 ( α ) K_n^*>\chi^2_{(r-1)(s-1)}(\alpha) Kn>χ(r1)(s1)2(α)则否定假设,否则接受。检验的拟合优度是
p ( k 0 ) = P ( K n ∗ ≥ k 0 ∣ H 0 ) ≈ P ( χ ( r − 1 ) ( s − 1 ) 2 ≥ k 0 ) p(k_0)=\mathbf P(K_n^*\ge k_0|H_0)\approx\mathbf P(\chi^2_{(r-1)(s-1)}\ge k_0) p(k0)=P(Knk0H0)P(χ(r1)(s1)2k0)
特别地当 r = s = 2 r=s=2 r=s=2时,
K n ∗ = n ( n 11 n 22 − n 12 n 21 ) 2 n 1 ⋅ n 2 ⋅ n ⋅ 1 n ⋅ 2 ⟶ L χ 1 2 K_n^*=\frac{n(n_{11}n_{22}-n_{12}n_{21})^2}{n_{1\cdot}n_{2\cdot}n_{\cdot1}n_{\cdot 2}}\stackrel{\mathscr L}{\longrightarrow }\chi^2_1 Kn=n1n2n1n2n(n11n22n12n21)2Lχ12

3.列联表中的齐一性检验

设有 r r r个生产同一产品的工厂,生产 s s s个不同等级的产品,第 i i i个工厂的 j j j等品率为 p i ( j ) p_i(j) pi(j),现在从第 i i i个工厂取出 n i ⋅ n_{i\cdot} ni个产品,记录 j j j等品 n i j n_{ij} nij个。齐一性检验检验的是 r r r个工厂产品质量相同,即
H 0 : p 1 ( j ) = p 2 ( j ) = ⋯ = p r ( j ) , j = 1 , 2 , ⋯   , s H_0:p_1(j)=p_2(j)=\cdots=p_r(j),j=1,2,\cdots,s H0:p1(j)=p2(j)==pr(j),j=1,2,,s
如果分布是完全已知的,即 p 1 ( j ) = ⋯ p r ( j ) = p j 0 p_1(j)=\cdots p_r(j)=p_j^0 p1(j)=pr(j)=pj0,且 p 1 0 , ⋯   , p s 0 p_1^0,\cdots,p_s^0 p10,,ps0均已知且和为1,此时
K = K n = ∑ i = 1 r ∑ j = 1 s ( n i j − n i ⋅ p j 0 ) 2 n i ⋅ p j 0 K=K_n=\sum_{i=1}^r\sum_{j=1}^s\frac{(n_{ij}-n_{i\cdot }p_j^0)^2}{n_{i\cdot }p_j^0} K=Kn=i=1rj=1snipj0(nijnipj0)2
H 0 H_0 H0成立时,有 K n ⟶ L χ ( s − 1 ) r 2 K_n\stackrel{\mathscr L}{\longrightarrow }\chi^2_{(s-1)r} KnLχ(s1)r2

如果分布未知,则
K n ∗ = n ( ∑ i = 1 r ∑ j = 1 s n i j 2 n i ⋅ n ⋅ j − 1 ) ⟶ L χ ( r − 1 ) ( s − 1 ) 2 K_n^*=n\left( \sum_{i=1}^r\sum_{j=1}^s\frac{n_{ij}^2}{n_{i\cdot}n_{\cdot j}}-1 \right)\stackrel{\mathscr L}{\longrightarrow }\chi^2_{(r-1)(s-1)} Kn=n(i=1rj=1sninjnij21)Lχ(r1)(s1)2
齐一性检验与独立性检验的区别,就在于 n i ⋅ n_{i\cdot} ni是事先给定的,没有随机性;而独立性检验中 n i ⋅ n_{i\cdot} ni是随机变量。但在独立性检验中成立的结论在齐一性检验中依然适用。

4.柯尔莫哥洛夫检验

对于拟合优度检验,Pearson χ 2 \chi^2 χ2检验虽然适用于任何总体分布,但当理论分布是连续分布时,柯尔莫哥洛夫检验效果更好。

要检验如下假设 H 0 : F ( x ) = F 0 ( x ) H_0:F(x)=F_0(x) H0:F(x)=F0(x),则从样本出发得到经验分布函数记作 F n ( x ) F_n(x) Fn(x),定义柯氏距离
D n = sup ⁡ − ∞ < x < + ∞ ∣ F n ( x ) − F 0 ( x ) ∣ D_n=\sup_{-\infty<x<+\infty}|F_n(x)-F_0(x)| Dn=<x<+supFn(x)F0(x)
为检验统计量,由格里汶科定理,当 H 0 H_0 H0成立时有 P ( lim ⁡ n → ∞ D n = 0 ) = 1 \mathbf P(\lim \limits_{n\to\infty}D_n=0)=1 P(nlimDn=0)=1,也就是说 D n D_n Dn值过大时,倾向于否定假设 H 0 H_0 H0,拟合优度的计算公式是 p ( D 0 ) = P ( D ≥ D 0 ∣ H 0 ) p(D_0)=\mathbf P(D\ge D_0|H_0) p(D0)=P(DD0H0)。需要确定一个常数,使得 p ( D n , α ) = α p(D_{n,\alpha})=\alpha p(Dn,α)=α,这个常数就是 D n D_n Dn的临界值。当 n n n较小时, D n , α D_{n,\alpha} Dn,α的值可以由查表求出。

D n , α D_{n,\alpha} Dn,α表格的制定依据是柯尔莫哥洛夫证明的极限定理:如果理论分布 F 0 ( x ) F_0(x) F0(x) R \mathbf R R上处处连续,则原假设成立时有
lim ⁡ n → ∞ P ( D n ≤ λ n ) = K ( λ ) = { ∑ k = − ∞ ∞ ( − 1 ) k e − 2 k 2 λ 2 , λ > 0 0 , λ ≤ 0 \lim_{n\to \infty}\mathbf P\left(D_n\le \frac{\lambda }{\sqrt n}\right)=K(\lambda)= \left\{ \begin{array}l \sum \limits_{k=-\infty}^\infty(-1)^ke^{-2k^2\lambda^2},&\lambda>0\\ 0,&\lambda \le 0 \end{array} \right. nlimP(Dnn λ)=K(λ)=k=(1)ke2k2λ2,0,λ>0λ0

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值