22.数理统计备考(4)

数理统计备考(4)

第五章

本章是参数假设检验。

参数检验拥有一个原假设和一个备择假设,两个假设是互斥的,一般把等号放在原假设 H 0 H_0 H0。一般假设检验的形式是:
H 0 : θ ∈ Θ 0 ↔ H 1 : θ ∈ Θ 1 H_0:\theta\in\Theta_0\leftrightarrow H_1:\theta\in\Theta_1 H0:θΘ0H1:θΘ1
对某一个检验,会使用检验统计量,并且给定一个否定域。当检验统计量 T T T落入否定域 D D D时,就拒绝 H 0 H_0 H0。检验函数是对此检验的一个描述,即
φ ( x ) = { 1 , T ∈ D ; 0 , T ∈ D ˉ . \varphi(\boldsymbol x)=\left\{ \begin{array}{l} 1, &T\in D;\\ 0,&T\in \bar D. \end{array} \right. φ(x)={1,0,TD;TDˉ.
假设检验可能会犯两种错误:弃真错误和存伪错误,一般用弃真错误,即
α = P ( T ∈ D ∣ H 0 ) \alpha=\mathbf P(T\in D|H_0) α=P(TDH0)
来表明检验的水平。功效函数为 β φ ( θ ) = E ( φ ( x ) ) = P θ ( T ∈ D ) \beta_\varphi (\theta)=E(\varphi(\boldsymbol x))=\mathbf P_\theta(T\in D) βφ(θ)=E(φ(x))=Pθ(TD),即在实际参数为 θ \theta θ的情况下,用检验 φ \varphi φ否定 H 0 H_0 H0的概率。

具体的假设检验过程与区间估计有很大的相似性,即构造相应的检验统计量,使它们在 H 0 H_0 H0成立时有着可以求分位数的分布,以确定拒绝域,再判断检验统计量是否落在拒绝域中。


似然比检验在假设检验中类似点估计里的极大似然估计,由于参数空间分为 Θ 0 , Θ 1 \Theta_0,\Theta_1 Θ0,Θ1两部分,取 Θ = Θ 0 ∪ Θ 1 \Theta=\Theta_0\cup\Theta_1 Θ=Θ0Θ1,则令似然比为
λ ( x ) = sup ⁡ θ ∈ Θ L ( θ ; x ) sup ⁡ θ ∈ Θ 0 L ( θ ; x ) ≥ 1 \lambda(\boldsymbol x)=\frac{\sup \limits_{\theta\in\Theta}L(\theta;\boldsymbol x)}{\sup\limits_{\theta\in\Theta_0}L(\theta;\boldsymbol x)}\ge1 λ(x)=θΘ0supL(θ;x)θΘsupL(θ;x)1
一般来说,如果这个比值越大,则 Θ 0 \Theta_0 Θ0中包含 θ \theta θ的概率就越小,所以当 λ ( x ) > c \lambda(\boldsymbol x)>c λ(x)>c时拒绝 H 0 H_0 H0。但是 λ ( x ) \lambda(\boldsymbol x) λ(x)的分布一般不好求得,所以可以取一个跟 λ ( x ) \lambda(\boldsymbol x) λ(x)同增减或反增减的统计量 T T T,计算 T T T的分布从而确定临界值。

如果 λ ( x ) \lambda(\boldsymbol x) λ(x) T T T都不好求分布,则求 λ ( x ) \lambda(\boldsymbol x) λ(x)的渐进分布,一般地,如果 Θ \Theta Θ的维数是 k k k Θ 0 \Theta_0 Θ0的维数是 s s s k − s = t > 0 k-s=t>0 ks=t>0,则
2 ln ⁡ λ ( X ) → χ t 2 2\ln \lambda(\boldsymbol X)\rightarrow \chi^2_t 2lnλ(X)χt2


检验的 p p p值是对检验肯定或否定力度的一个量化表示。对于单边假设检验,如果拒绝域的形式是 T < c T<c T<c,检验统计量 T T T的观察值是 t 0 t_0 t0,则检验的 p p p值是
p ( t 0 ) = P ( T ≤ t 0 ∣ H 0 ) p(t_0)=\mathbf P(T\le t_0|H_0) p(t0)=P(Tt0H0)
如果单边检验拒绝域的形式是 T > c T>c T>c,检验统计量的观察值是 t 0 t_0 t0,则
p ( t 0 ) = P ( T ≥ t 0 ∣ H 0 ) p(t_0)=\mathbf P(T\ge t_0|H_0) p(t0)=P(Tt0H0)
如果双边检验的拒绝域形式是 T < c  or  T > d T<c\text{ or }T>d T<c or T>d,检验统计量的观察值是 t 0 t_0 t0,则
p ( t 0 ) = 2 min ⁡ { P ( T ≥ t 0 ∣ H 0 ) , 1 − P ( T ≤ t 0 ∣ H 0 ) } p(t_0)=2\min \{\mathbf P(T\ge t_0|H_0), 1-\mathbf P(T\le t_0|H_0)\} p(t0)=2min{P(Tt0H0),1P(Tt0H0)}
如果 p p p值越小,则说明观察值出现的概率越小,则越应该拒绝 H 0 H_0 H0。一般在 p < α p<\alpha p<α的情况下拒绝 H 0 H_0 H0

第六章

本章是非参数假设检验,包括符号检验法、符号秩和检验法、Wilcoxon符号秩和检验法、拟合优度检验、独立性与齐一性检验等内容。

符号检验法适用于检验在成对数据的情况下,两个总体均值是否一致。假设有两个总体 X , Y X,Y X,Y,让 Z i = X i − Y i Z_i=X_i-Y_i Zi=XiYi,剔除 Z i = 0 Z_i=0 Zi=0的数据,并令 S i = I ( Z i > 0 ) S_i=I_{(Z_i>0)} Si=I(Zi>0),则有
S = ∑ i = 1 n S i ∼ b ( n , θ ) S=\sum_{i=1}^n S_i\sim b(n,\theta) S=i=1nSib(n,θ)
这里 n n n Z i Z_i Zi中非零的个数, θ \theta θ Z i > 0 Z_i>0 Zi>0的概率。根据原假设,可以将 H 0 H_0 H0分为 θ = 1 / 2 , θ ≥ 1 / 2 , θ ≤ 1 / 2 \theta=1/2, \theta\ge1/2, \theta\le1/2 θ=1/2,θ1/2,θ1/2三种。

  1. H 0 : θ = 1 / 2 H_0:\theta=1/2 H0:θ=1/2的检验,拒绝域是 S < c  or  S > d S<c\text{ or }S>d S<c or S>d,计算 p p p值为
    p ( S 0 ) = 2 min ⁡ { P ( S ≥ S 0 ∣ θ = 1 / 2 ) , P ( S ≤ S 0 ∣ θ = 1 / 2 ) } p(S_0)=2\min\{\mathbf P(S\ge S_0|\theta=1/2),\mathbf P(S\le S_0|\theta=1/2)\} p(S0)=2min{P(SS0θ=1/2),P(SS0θ=1/2)}

  2. 双边检验,拒绝域是 S < c S<c S<c p p p值为 p ( S 0 ) = P ( S ≤ S 0 ∣ θ = 1 / 2 ) p(S_0)=\mathbf P(S\le S_0|\theta=1/2) p(S0)=P(SS0θ=1/2);拒绝域是 S > d S>d S>d p p p值为 p ( S 0 ) = P ( S ≥ S 0 ∣ θ = 1 / 2 ) p(S_0)=\mathbf P(S\ge S_0|\theta=1/2) p(S0)=P(SS0θ=1/2)


符号秩和检验法是对符号检验法的改进,同样计算 Z i Z_i Zi,并从小到大排列 ∣ Z i ∣ |Z_i| Zi,取 R i R_i Ri为它们的秩,则检验统计量为
W + = ∑ i = 1 n R i I ( Z i > 0 ) W^+=\sum_{i=1}^n R_iI_{(Z_i>0)} W+=i=1nRiI(Zi>0)

  1. 对于双边检验问题 H 0 : θ = 1 / 2 H_0:\theta=1/2 H0:θ=1/2 W + W^+ W+应该不大不小,所以检验的否定域是 { W + ≤ d  or  W + ≥ c } \{W^+\le d\text{ or } W^+\ge c\} {W+d or W+c},确定方式为 P ( W + ≥ c ∣ θ = 1 / 2 ) ≤ α / 2 \mathbf P(W^+\ge c|\theta=1/2)\le \alpha/2 P(W+cθ=1/2)α/2 d = n ( n + 1 ) 2 − c d=\frac{n(n+1)}2-c d=2n(n+1)c
  2. 对于单边检验问题,否定域类似为单边的。

θ = 1 / 2 \theta=1/2 θ=1/2的情况下, P ( W + ≥ c ) ≤ α / 2 P(W^+\ge c)\le \alpha/2 P(W+c)α/2的值可以通过查表得出。具体方法是,先计算 W + W^+ W+的值,然后根据 n , α n,\alpha n,α查表得到 W + W^+ W+的临界值;双边检测则需要根据 n , α / 2 n,\alpha/2 n,α/2查询 W + W^+ W+的临界值,然后通过 d = n ( n + 1 ) / 2 − c d=n(n+1)/2-c d=n(n+1)/2c计算另一边的临界值。


Wilcoxon两样本秩和检验在基本假设 F 2 ( x ) = F 1 ( x − θ ) F_2(x)=F_1(x-\theta) F2(x)=F1(xθ)下,检验 θ \theta θ的情况。为此,需要将两个样本的观测值从小到大排列,假设 n < m n<m n<m,则将 n n n个样本的秩加起来,记作 W n W_n Wn

在双边检验 θ = 0 \theta=0 θ=0的情况下, W n W_n Wn不该过大也不该过小,所以拒绝域是 W n ≤ d W_n\le d Wnd W n ≥ c W_n\ge c Wnc,这里 d = n ( n + m + 1 ) − c d=n(n+m+1)-c d=n(n+m+1)c

如果是单边检验,则 W n W_n Wn不应该过小或者不应该过大,拒绝域根据 θ \theta θ的情况而定,但操作方法与符号秩和检验类似。

具体的操作为,取样本容量小的那一组样本计算秩和,根据 n , m , α n,m,\alpha n,m,α查询临界值;如果是双边检验则根据 n , m , α / 2 n,m,\alpha/2 n,m,α/2查询,并有 d = n ( n + m + 1 ) − c d=n(n+m+1)-c d=n(n+m+1)c。然后计算拒绝域并判断是否需要拒绝 H 0 H_0 H0


Pearson χ 2 \chi^2 χ2拟合优度检验主要适用于理论分布是离散的情形,如概率分布列为
( a 1 a 2 ⋯ a r p 1 p 2 ⋯ p r ) , ∑ i = 1 r p i = 1 \left( \begin{array}{l} a_1&a_2&\cdots&a_r\\ p_1&p_2&\cdots &p_r \end{array} \right),\sum_{i=1}^r p_i=1 (a1p1a2p2arpr),i=1rpi=1
若每一种情况 a i a_i ai的观察值为 ν i \nu_i νi,样本容量为 n = ∑ i = 1 r ν i n=\sum_{i=1}^r \nu_i n=i=1rνi,则有
K n = ∑ i = 1 r ( ν i − n p i ) 2 n p i ∼ χ r − 1 2 K_n=\sum_{i=1}^r\frac{(\nu_i-np_i)^2}{np_i}\sim \chi^2_{r-1} Kn=i=1rnpi(νinpi)2χr12
因此 p p p值为
p ( k n ) = P ( K n ≥ k n ∣ H 0 ) = P ( χ r − 1 2 ≥ k n ) p(k_n)=\mathbf P(K_n\ge k_n|H_0)=\mathbf P(\chi^2_{r-1}\ge k_n) p(kn)=P(KnknH0)=P(χr12kn)
如果 p ( k n ) ≤ α p(k_n)\le\alpha p(kn)α则拒绝 H 0 H_0 H0,认为拟合优度较差。 p p p值越接近1则拟合效果越好。

Pearson χ 2 \chi^2 χ2检验还是和总体分布是连续的情况,此时要将数轴划分成数个小区间,让每个小区间内的样本数量都不小于5,然后就可以视作离散情形。

Pearson χ 2 \chi^2 χ2检验还适用于理论分布带有未知参数的情形,此时将未知参数用极大似然估计代替,并且假设 θ = ( θ 1 , ⋯   , θ s ) \theta=(\theta_1,\cdots,\theta_s) θ=(θ1,,θs)。代入极大似然估计后类似计算
K n ∗ = ∑ i = 1 r ( ν i − n p ^ i ) 2 n p ^ i → χ r − 1 − s 2 K_n^*=\sum_{i=1}^r\frac{(\nu_i-n\hat p_i)^2}{n\hat p_i}\rightarrow \chi^2_{r-1-s} Kn=i=1rnp^i(νinp^i)2χr1s2
这样, p p p值就是
p ( k n ∗ ) = P ( χ r − 1 − s 2 ≥ k n ∗ ) p(k_n^*)=\mathbf P(\chi^2_{r-1-s} \ge k_n^*) p(kn)=P(χr1s2kn)


对于列联表中的独立性和齐一性检验,检验统计量都是
K n = n ( ∑ i = 1 r ∑ j = 1 s n i j 2 n i ⋅ n ⋅ j − 1 ) → χ ( r − 1 ) ( s − 1 ) 2 K_n=n\left(\sum_{i=1}^r\sum_{j=1}^s\frac{n_{ij}^2}{n_{i\cdot}n_{\cdot j}}-1\right)\rightarrow \chi^2_{(r-1)(s-1)} Kn=n(i=1rj=1sninjnij21)χ(r1)(s1)2
检验的 p p p值为
p ( k n ) = P ( χ ( r − 1 ) ( s − 1 ) 2 ≥ k n ) p(k_n)=\mathbf P(\chi^2_{(r-1)(s-1)}\ge k_n) p(kn)=P(χ(r1)(s1)2kn)
检验的 p p p值越大也即 k n k_n kn越小,越认为列联表两个维度独立/齐一; p p p值越小也即 k n k_n kn越大,越认为列联表两个维度不独立/齐一。


柯尔莫哥洛夫也是用于检验拟合优度的,但它更适用于分布函数连续时的拟合优度检验。

此时要检验的假设为 H 0 : F ( x ) = F 0 ( x ) H_0:F(x)=F_0(x) H0:F(x)=F0(x)。为此引入柯氏距离
D n = sup ⁡ x ∈ R ∣ F 0 ( x ) − F n ( x ) ∣ D_n=\sup_{x\in\R}|F_0(x)-F_n(x)| Dn=xRsupF0(x)Fn(x)
由格里汶科定理, H 0 H_0 H0成立时,应该有 P ( lim ⁡ n → ∞ D n = 0 ) = 1 \mathbf P(\lim\limits_{n\to \infty}D_n=0)=1 P(nlimDn=0)=1,所以 D n D_n Dn值太大时就否定 H 0 H_0 H0,拒绝域为 D n ≥ c D_n\ge c Dnc p p p值为
p ( d n ) = P ( D n ≥ d n ∣ H 0 ) p(d_n)=\mathbf P(D_n\ge d_n|H_0) p(dn)=P(DndnH0)
实际使用时,要根据 n n n的大小查表,得到检验的临界值,从而得到检验的拒绝域。

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值