0. Outlines
1. 基本概念
- 假设,检验统计量,拒绝域;
- 功效函数;
- 两类错误,检验的水平;
- 假设检验的优良性准则(一致最优检验);
- p-值;
2. 重要的参数检验
连续型随机变量:
- 正态总体均值的检验;
- 两正态总体均值差的检验;
- 正态总体方差的检验(一个总体&两个总体);
- 指数分布参数的检验;
离散型随机变量
- 二项分布参数 p 的检验(符号检验);
- 泊松分布参数
λ 的检验;
大样本检验
贝叶斯方法
3. 分布的检验(拟合优度检验)
1. 基本概念
1.1 假设,检验,检验统计量,拒绝域;
- 假设:分为原假设 H0:θ∈Θ0 和对立假设 Ha:θ∈Θa ;原假设为“原来的”保守假设;
检验统计量:检验一个假设时所用的统计量 T(X˜) ,其分布函数为 F ;
- 最直观的检验统计量可以从估计量得到;
- 似然比统计量等也是常用的检验统计量;
拒绝域:拒绝原假设的那些样本
X˜=(X1,...,Xn) 所组成的区域 R={X˜|T(X˜)≥C(α)} 称为拒绝域;- α 是检验水平,之后会提到;
- C(α) 称为检验的临界值(critical value),显然是检验水平的函数,其选取非常重要;
- 接受域
A
是拒绝域
R 关于样本空间 Ω 的补集;
检验: 检验就是一个判断准则,如:“当 T(X˜)≥C(α) 时在检验水平 α 下拒绝原假设,否则不能拒绝原假设”;
- T(X˜)≥C(α) 即为拒绝域;
- 检验的组成元素:检验统计量 T(X˜) ,检验水平 α ,拒绝域的定义;
- 检验决定了功效函数;
p-值: 对一个检验统计量 T(X˜) ,当 T 越大时,
H1 越有可能是真的,那么对任意样本点 x ,定义
p(x)=supθ∈Θ0Pθ(W(X)≥W(x))
为p-值;- p-值不在Neyman-Pearson理论里;
这里 θ 可以是标量,也可以是向量;
1.2 功效函数([@casella2002statistical2],p373-p400)
(Def): 未知参数
θ
,样本
X˜=(X1,...,Xn)
,原假设
H0
,对一个检验
Φ
,其功效函数为:
Remarks:
- 同一个原假设有很多检验方法,对各个检验方法的评估、比较就取决于检验的功效函数;
- 功效函数是样本空间 Ω→[0,1] 上的函数;
- 拒绝域 R 与检验水平、检验统计量的分布有关;
1.3 两类错误 检验的水平
两类错误:
- 一类错误:拒真
α1 ; - 二类错误:取伪 α2 ;
功效函数为:
βΦ(θ)={α1(θ)1−α2(θ)if θ∈Θ0if θ∈ΘaRemarks:
1−α2(θ) 称为该检验的功效(power);检验的水平
(Def): Φ 是原假设 H0 的一个检验,其功效函数为 βΦ(θ) ,有常数 α ,s.t.对任意 θ∈Θ0 ,有:
βΦ(θ)≤α,
则称 Φ 是一个水平为 α 的检验, α 称为检验水平。
1.4 假设检验的优良性准则(一致最优检验)
(Def): (一致最优检验)
设 Φ 是一个水平为 α 的检验,若对任何其他一个水平为 α 的检验 g ,对任意
θ∈Θa 有:
βΦ(θ)≥βg(θ),
则称 Φ 是检验问题 H0:H1 的一个水平 α 的一致最优检验。Remarks:
- 如上限制第一类错误概率的原则及一致最优检验这些假设检验理论由Nayman & Pearson提出,称为“Nayman-Pearson理论”;
- 之后还会有p-value 的理论提出;
- 从实际来看,一致最优检验往往是非常难找的,但是这种检验方法比较的思想确实一致的;
- Statistical inference 书上有其它的hypothesis testing evaluation 方法,可以细看;
2. 重要的参数检验
2.1 连续型随机变量:
- 正态总体均值的检验;
- 两正态总体均值差的检验;
- 正态总体方差的检验(一个总体&两个总体);
- 指数分布参数的检验;
Remarks: 这里以“正态总体均值的检验”为例,介绍假设,检验的设定,检验统计量的选取,功效函数的推导,确定名义水平后拒绝域的临界值的计算,考虑检验分辨率的情形下样本量 n 的选取问题。
正态总体均值的检验
X1,X2,⋯,Xn,⋯∼i.i.d.N(θ,σ2) ,其中方差 σ2 已知,假设检验问题为:
H0:θ≤θ0↔Ha:θ>θ0.- 初步提出检验 ϕ : 当 X¯≤C 时接受 H0 ,否则拒绝 H0 (所谓初步是指还带有未知量,如这里的 C );
- 检验水平
α , 已知 X¯−θσ/n√∼N(0,1) ; - 检验
ϕ
的功效函数:
βϕ(θ)=Pθ(X¯>C)=1−Pθ(X¯−θσ/n−−√≤C−θσ/n−−√);
- 功效函数关于 θ 单调递增;
- 因此要达到水平 α ,只需要 βϕ(θ0)=α 即可,解出临界值 C(α)=θ0+σ/n−−√μα ;
- 此处 μα 为标准正态分布的上 α 分位数,即 Φ(μα)=1−α ;
- 检验统计量为 T=X¯−θ0σ/n√ ,那么 T∼H0N(0,1) ;
综上,更新水平为 α 的检验 phi 与对应功效函数如下:
- 检验 ϕ′ : 当 X¯≤θ0+σ/n−−√μα 时,接受 H0 ,否则拒绝 Ha ;
- 功效函数: βϕ′(θ)=1−Φ(n√(θ0−θ)σ+μα);
- Φ(x) 为标准正态分布的c.d.f;
若对检验功效 β 还有要求时,(比如提要求:选定 θ1>θ0 ,要求当任意 θ>θ1 , βϕ′(θ)≥1−β ),那么所需最小样本量 n 可以求解如下,这在试验设计时比较重要:
- 因为功效函数是单增的,因此求解
βϕ′(θ1)≤1−β 即可,可得样本量 n≥(μa+μb)2σ2(θ1−θ0)2 ; - 这是在达到一定分辨率( |θ1−θ0| )的条件下控制第二类错误;
- 但是,对很多检验来说,这个 n 都是求不出来的;
- 因为功效函数是单增的,因此求解
2.2 离散型随机变量
2.2.1 二项分布参数
p 的检验(符号检验);Remarks:
因为总体分布为离散分布,因此不能恰好得到检验水平 α 的拒绝域,这时有两种解决方法:
- 用随机化检验的方法达到预定的检验水平 α ;
- 稍微调整检验水平 α 到 α1 ,使得新水平 α1 能够恰好达到;
- 一般来说第二种更加常用并好理解;
在非参数检验问题中有一类符号检验问题,即将配对数据处理成符号数据,进一步提出新的假设检验 H0:p=12↔Ha:p≠12 ,这种处理方式更加稳健;对总体分布没有特殊假定;
2.2.2 泊松分布参数 λ 的检验;
Remarks:
若样本为 (X1,...,Xn) ,令 X=∑ni=1Xi ,那么 X 仍为泊松分布,只是新参数为nλ .2.3 大样本检验
- 检验统计量的确切分布不易求出,那么可依据其极限分布来确定临界值 C(α) ;
- 由于是近似的,因此实际水平与名义水平 α 有一定差距,是我们通常要讨论的问题;
- 大样本方法在科研中是常用的,需要熟悉;
2.4 贝叶斯方法
在求得参数 θ 的后验概率分布 h(θ|X˜) 后,分别计算条件概率 P(H0|X˜) 和 P(Ha|X˜) ;
若前者大于后者,那么就接受 H0 ,否则就拒绝原假设。Remarks:
- 贝叶斯方法是与Neyman-Pearson理论完全不同的方法,没有“检验水平”这一概念;
- 不需要寻找统计量,求统计量的确切分布;
- 贝叶斯方法有时可以用于一些特殊的假设检验问题,如 H0:a≤θ≤b , Ha:θ<a 或 θ>b ;这类问题对Neyman-Pearson理论来说是棘手的;
3. 分布的检验(拟合优度检验)
拟合优度检验就是检验一批数据是否与某种理论分布符合;
3.1 理论分布已知且只取有限个值
- 假设: H0:P(X=ai)=pi,i=1,...,k ;
- 理论-经验分布表:
类别 a1 … ak 理论值 np1 … npk 观测值 ν1 … νk * Pearson 拟合优度 χ2 统计量:
Z=∑ki=1(npi−νk)2npi
* 统计量分布(由Pearson 证明)
(Thm) 如果原假设 H0 成立,那么 n→∞ 时, Z→χ2k−1 ;
* 检验: ϕ : 当 Z≤χ2k−1(α) 时,在水平 α 下接受原假设 H0 ,否则拒绝原假设;
* 拟合优度(其实就是p-值): p(Z0)=P(Z≥Z0|H0) ;3.2 理论分布只取有限个值但不完全已知(多项分布)
- 相较3.1 需要多一步理论分布的参数估计步骤,与此同时统计量的零分布也有所不同;
- 设组数有
k
组,未知参数个数为
r ,( pi=pi(θ1,...θr),i=1,...,k ),那么先用极大似然估计法估计出未知参数 θ^i,i=1,...,r ,进而求得 p^i=pi(θ^1,...θ^r) ;
- 似然函数易由多项分布得到;
- 将估计值带入统计量的表达式: Z=∑ki=1(np^i−νk)2np^i ;
- 检验统计量的零分布:(Fisher改正了Pearson的错误)
(Thm): H0 下,当 n→∞ 时, Z→χ2k−1−r ; - 在列联表中有重要应用,如独立性检验,齐一性检验;
在列联表中有重要应用
- 检验两个属性 A,B 独立性,其中 A,B 分别有 a,b 种水平;
- H0:A,B独立 ;
- 经计算, χ2 统计量 Z=∑ai=1∑bj=1(nnij−ni.n.j)2/(nni.n.j);
- 在零分布下检验统计量服从自由度为 (a−1)(b−1) 的 χ2 -分布;
独立性检验:A,B两个属性均是随机选取的,即采样以后才知道;
齐一性检验:其中一个属性在抽样时是已知的,这种情况理论证明以上分布仍然适用。3.3 理论分布为一般分布的情形
- 若一般分布为连续型分布,那么就化连续为离散;
- 若一般分布为取值个数无限的离散分布,那么就行并组操作;
- 在分组时,组数
k
不应小于参数个数
r +2; - 在检验前同样要先进行参数估计,可以类似之前的用MLE方法,若MLE难以求得,可以选取较为简单的估计量,此时统计量近似服从 χ2 -分布;
References: