第五章 参数似然检验(3)
1.似然比检验
似然比检验在假设检验中的地位相当于极大似然估计在点估计中的地位,它可视为极大似然原理在假设检验中的体现。由这种方法构造出的检验,一般具有比较良好的性质,且对分布族没有什么特殊的要求。
设有分布族
{
f
(
x
,
θ
)
,
θ
∈
Θ
}
\{f(x,\theta),\theta\in\Theta\}
{f(x,θ),θ∈Θ},
X
=
(
X
1
,
⋯
,
X
n
)
\boldsymbol X=(X_1,\cdots,X_n)
X=(X1,⋯,Xn)是取自该总体的简单随机样本,
f
(
x
,
θ
)
f(\boldsymbol x,\theta)
f(x,θ)是该样本的概率函数,也是似然函数
L
(
θ
,
x
)
L(\theta,\boldsymbol x)
L(θ,x)。由于假设检验中
θ
∈
Θ
0
\theta\in\Theta_0
θ∈Θ0与
θ
∈
Θ
1
\theta\in\Theta_1
θ∈Θ1是择一成立的,所以考虑以下两个量:
L
Θ
0
(
x
)
=
sup
θ
∈
Θ
0
f
(
x
,
θ
)
L
Θ
1
(
x
)
=
sup
θ
∈
Θ
1
f
(
x
,
θ
)
L_{\Theta_0}(\boldsymbol x)=\sup_{\theta\in\Theta_0}f(\boldsymbol x,\theta)\\ L_{\Theta_1}(\boldsymbol x)=\sup_{\theta\in\Theta_1}f(\boldsymbol x,\theta)
LΘ0(x)=θ∈Θ0supf(x,θ)LΘ1(x)=θ∈Θ1supf(x,θ)
考虑比值
L
Θ
1
(
x
)
/
L
Θ
0
(
x
)
L_{\Theta_1}(\boldsymbol x)/L_{\Theta_0}(\boldsymbol x)
LΘ1(x)/LΘ0(x),如果这个比值比较大,则倾向于
θ
∈
Θ
1
\theta\in\Theta_1
θ∈Θ1,否则就比较倾向于
θ
∈
Θ
0
\theta \in\Theta_0
θ∈Θ0。
为了方便计算,将
L
Θ
(
x
)
/
L
Θ
0
(
x
)
L_\Theta(\boldsymbol x)/L_{\Theta_0}(\boldsymbol x)
LΘ(x)/LΘ0(x)记作
λ
(
x
)
\lambda(\boldsymbol x)
λ(x),它与上面所说的比值同增减,因而可以代替。它就是似然比。可以根据似然比定义非随机化检验函数如下:
φ
(
x
)
=
{
1
,
λ
(
x
)
≥
c
,
0
,
λ
(
x
)
<
c
.
\varphi(\boldsymbol x)=\left\{ \begin{array}{l} 1, &\lambda(\boldsymbol x)\ge c,\\ 0, &\lambda(\boldsymbol x)<c. \end{array} \right.
φ(x)={1,0,λ(x)≥c,λ(x)<c.
在实际使用时,需要计算
φ
(
X
)
\varphi(\boldsymbol X)
φ(X)的分布,但它一般比较复杂不易求。但如果
λ
(
x
)
=
g
(
T
(
x
)
)
\lambda(\boldsymbol x)=g(T(\boldsymbol x))
λ(x)=g(T(x))是
T
(
x
)
T(\boldsymbol x)
T(x)的单调函数,则只要代替地求出
T
(
X
)
T(\boldsymbol X)
T(X)的分布即可。因为如果
g
g
g是递增函数,
λ
(
x
)
>
c
\lambda(\boldsymbol x)>c
λ(x)>c等价于
T
(
x
)
>
c
′
T(\boldsymbol x)>c'
T(x)>c′;如果是
g
g
g是递减函数,
λ
(
x
)
>
c
\lambda(\boldsymbol x)>c
λ(x)>c等价于
T
(
x
)
<
c
′
T(\boldsymbol x)<c'
T(x)<c′。
如果似然比
λ
(
x
)
\lambda(\boldsymbol x)
λ(x)不易求,则求它的渐进分布。对此有Wilks定理,设
Θ
\Theta
Θ的维数为
k
k
k,
Θ
0
\Theta_0
Θ0的维数为
s
s
s,若
k
−
s
=
t
>
0
k-s=t>0
k−s=t>0,即参数空间维数比零假设的参数空间高,则对于检验问题
H
0
:
θ
∈
Θ
0
↔
H
1
:
θ
∈
Θ
1
H_0:\theta\in\Theta_0\leftrightarrow H_1:\theta\in\Theta_1
H0:θ∈Θ0↔H1:θ∈Θ1,有
2
ln
λ
(
X
)
⟶
L
χ
t
2
2\ln \lambda(\boldsymbol X)\stackrel{\mathscr L}{\longrightarrow }\chi^2_t
2lnλ(X)⟶Lχt2
2.假设检验与区间估计
假设检验与区间估计的联系:单参数假设检验问题的水平为 α \alpha α的双边检验,可以得到该参数的置信系数为 1 − α 1-\alpha 1−α的置信区间;单边检验可以得到置信系数为 1 − α 1-\alpha 1−α的置信限。
假设 X = ( X 1 , ⋯ , X n ) \boldsymbol X=(X_1,\cdots,X_n) X=(X1,⋯,Xn)是从总体 { f ( x , θ ) , θ ∈ Θ } \{f(x,\theta),\theta\in\Theta\} {f(x,θ),θ∈Θ}中抽取的简单随机样本,考虑其双边检验问题 H 0 : θ = θ 0 ↔ H 1 : θ ≠ θ 0 H_0:\theta=\theta_0\leftrightarrow H_1:\theta\neq\theta_0 H0:θ=θ0↔H1:θ=θ0,取检验统计量为 T ( X ) T(\boldsymbol X) T(X),它包含检验参数 θ 0 \theta_0 θ0,其拒绝域是 D = { T ( X ) < c 或 T ( X ) > d } D=\{T(\boldsymbol X)<c或T(\boldsymbol X)>d\} D={T(X)<c或T(X)>d},设 D ˉ \bar D Dˉ是其接受域,则有 P ( D ˉ ∣ θ = θ 0 ) = 1 − α \mathbf P(\bar D|\theta=\theta_0)=1-\alpha P(Dˉ∣θ=θ0)=1−α。这样,可以解出 c < T ( X ) < d c<T(\boldsymbol X)<d c<T(X)<d得到 θ ^ 1 ( X ) ≤ θ 0 ≤ θ ^ 2 ( X ) \hat \theta_1(\boldsymbol X)\le\theta_0\le\hat \theta_2(\boldsymbol X) θ^1(X)≤θ0≤θ^2(X);由于 θ = θ 0 \theta=\theta_0 θ=θ0,可以得到其置信系数为 1 − α 1-\alpha 1−α的置信区间 [ θ ^ 1 ( X ) , θ ^ 2 ( X ) ] [\hat\theta_1(\boldsymbol X),\hat\theta_2(\boldsymbol X)] [θ^1(X),θ^2(X)]。
与求接受域或拒绝域不同,得到去真概率的表达式后,求接受域或拒绝域会将检验统计量分离出来;而求置信区间会改 θ 0 \theta_0 θ0为 θ \theta θ,把假设检验中的假设值分离出来,二者的交集就在去真概率的表达式。
如果得到了 θ \theta θ的置信水平为 1 − α 1-\alpha 1−α的区间估计 [ θ ^ 1 , θ ^ 2 ] [\hat \theta_1,\hat \theta_2] [θ^1,θ^2],对给定的 θ 0 \theta_0 θ0的双边检验,最简单的方法就是观察 θ 0 \theta_0 θ0是否属于 [ θ ^ 1 , θ ^ 2 ] [\hat \theta_1,\hat\theta_2] [θ^1,θ^2]。
3.检验的 p p p值
假设检验可能结果只有接受原假设或者否定原假设两种,但做出接受或者否定这个决定有多大的把握,则往往不易清楚地显示出来。因此,假设检验作出的结论没有区间估计那么精细,检验的 p p p值就是对此粗糙性的一点补救。
对于双边检验问题,如果原假设为
H
0
:
θ
=
θ
0
↔
H
1
:
θ
≠
θ
0
H_0:\theta=\theta_0\leftrightarrow H_1:\theta\neq\theta_0
H0:θ=θ0↔H1:θ=θ0,假设的检验统计量为
T
T
T,否定域是
∣
T
∣
>
c
|T|>c
∣T∣>c。设由样本观测值计算出的检验统计量观测值为
t
0
t_0
t0,则这组样本的
p
p
p值为
p
=
P
(
∣
T
∣
>
∣
t
0
∣
∣
H
0
)
p=\mathbf P(|T|>|t_0| | H_0)
p=P(∣T∣>∣t0∣∣H0)
而对于单边检验问题,若原假设为
H
0
:
θ
≤
θ
0
H_0:\theta\le \theta_0
H0:θ≤θ0,否定域为
T
>
c
T>c
T>c,则
p
p
p值为
p
=
P
(
T
>
t
0
∣
H
0
)
p=\mathbf P(T>t_0|H_0)
p=P(T>t0∣H0)
若原假设为
H
0
:
θ
≥
θ
0
H_0:\theta \ge \theta_0
H0:θ≥θ0,否定域为
T
<
c
T<c
T<c,则
p
p
p值为
p
=
P
(
T
<
t
0
∣
H
0
)
p=\mathbf P(T<t_0|H_0)
p=P(T<t0∣H0)
可以看到,
p
p
p值计算的表现形式,总是与否定域的形式一致。
p
p
p值大小可以作为衡量“用样本否定原假设”的依据大小,
p
p
p值越小,则用样本否定原假设的把握就越大。