10.参数推断
渐近相对效率
在参数模型中我们常常关心参数的值,但真值往往是未知的,这时我们需要对参数值进行推断。在这里常用到的是参数估计与假设检验。前者在无目标下估计参数的值,后者在有目标下检验对于参数的假设是否可以接受。
而在估计参数值时,常常是用样本的统计量对参数进行估计,并且使得这一统计量具有某种很好的性质,比如无偏性,最小化方差,最小化MSE等。但当有多个统计量都可以用来估计某参数时,我们应如何选择恰当的统计量?
在估计参数时,往往需要规定估计的精度,以下给出渐进相对效率的定义:
定义10.1(渐近相对效率):设 A A A和 B B B为两个统计量, n A n_A nA和 n B n_B nB分别为使量统计量的估计达到统一精度时的样本量。定义 B B B与 A A A之间的渐进相对效率(ARE)为
e ( B , A ) = lim n A , n B → ∞ n A n B e(B, A)=\lim _{n_{A}, n_{B} \rightarrow \infty} \frac{n_{A}}{n_{B}} e(B,A)=nA,nB→∞limnBnA
- 当 A A A与 B B B均为(单变量)无偏统计量时,上式可由量统计量的方差决定,此时也叫作渐近相对方差
e ( B , A ) = lim n A , n B → ∞ n A n B = σ A 2 ( θ ) σ B 2 ( θ ) e(B, A)=\lim _{n_{A}, n_{B} \rightarrow \infty} \frac{n_{A}}{n_{B}}=\frac{\sigma_{A}^{2}(\theta)}{\sigma_{B}^{2}(\theta)} e(B,A)=nA,nB→∞limnBnA=σB2(θ)σA2(θ)
- 当 A A A与 B B B为多元情形时,若 A A A 为 A N ( θ , n − 1 Σ 1 ( θ ) ) A N\left(\boldsymbol{\theta}, n^{-1} \Sigma_{1}(\boldsymbol{\theta})\right) AN(θ,n−1Σ1(θ)), B B B 为 A N ( θ , n − 1 Σ 2 ( θ ) ) A N\left(\boldsymbol{\theta}, n^{-1} \Sigma_{2}(\boldsymbol{\theta})\right) AN(θ,n−1Σ2(θ)), B B B与 A A A之间的渐近相对效率(ARE)定义为
( B , A ) = lim n 1 , n 2 → ∞ n 1 n 2 = ( ∣ Σ 1 ( θ ) ∣ ∣ Σ 2 ( θ ) ∣ ) 1 k \left(B, A\right)=\lim _{n_{1}, n_{2} \rightarrow \infty} \frac{n_{1}}{n_{2}}=\left(\frac{\left|\Sigma_{1}(\theta)\right|}{\left|\Sigma_{2}(\theta)\right|}\right)^{\frac{1}{k}} (B,A)=n1,n2→∞limn2n1=(∣Σ2(θ)∣∣Σ1(θ)∣)k1
定义 B B B优于 A A A为: ∣ Σ 1 ( θ ) ∣ ≤ ∣ Σ 2 ( θ ) ∣ \left|\Sigma_{1}(\theta)\right| \leq\left|\Sigma_{2}(\theta)\right| ∣Σ1(θ)∣≤∣Σ2(θ)∣
此时我们能不能找到一个"最优"的统计量来估计 θ \theta θ?
渐近有效性
定义10.2(Fisher信息量):设 X 1 , X 2 , … , X n ∼ i.i.d. F θ \boldsymbol{X}_{1}, \boldsymbol{X}_{2}, \ldots, \boldsymbol{X}_{n} \stackrel{\text { i.i.d. }}{\sim} F_{\boldsymbol{\theta}} X1,X2,…,Xn∼ i.i.d. Fθ, 其中 θ ∈ Θ ⊂ R k \boldsymbol{\theta} \in \Theta \subset \mathbb{R}^{k} θ∈Θ⊂Rk, F θ F_{\boldsymbol{\theta}} Fθ 有密度函数(pdf)或质量函数(pmf) f ( x ; θ ) f(\boldsymbol{x} ; \boldsymbol{\theta}) f(x;θ),设 F = { F θ , θ ∈ Θ } \mathcal{F}=\left\{F_{\boldsymbol{\theta}}, \boldsymbol{\theta} \in \Theta\right\} F={Fθ,θ∈Θ}满足正则条件,Fisher信息量定义为
I ( θ ) = E [ ∂ log f ( X ; θ ) ∂ θ { ∂ log f ( X ; θ ) ∂ θ } ⊤ ] \boldsymbol{I}(\boldsymbol{\theta})=\mathrm{E}\left[\frac{\partial \log f(\boldsymbol{X} ; \boldsymbol{\theta})}{\partial \boldsymbol{\theta}}\left\{\frac{\partial \log f(\boldsymbol{X} ; \boldsymbol{\theta})}{\partial \boldsymbol{\theta}}\right\}^{\top}\right] I(θ)=E[∂θ∂logf(X;θ){∂θ∂logf(X;θ)}⊤]
,并且为一正定矩阵。
定义10.3(渐近有效性):估计量 θ ^ n \widehat{\boldsymbol{\theta}}_{n} θ n 服从 A N ( θ , n − 1 Σ ( θ ) ) A N\left(\boldsymbol{\theta}, n^{-1} \Sigma(\boldsymbol{\theta})\right) AN(θ,n−1Σ(θ)) 如果满足 Σ ( θ ) = I − 1 ( θ ) \Sigma(\boldsymbol{\theta})=\boldsymbol{I}^{-1}(\boldsymbol{\theta}) Σ(θ)=I−1(θ),则称其为渐进有效或渐进最优的。
正则条件:令
Θ
\Theta
Θ 为
R
\mathbb{R}
R中的开区间,假设:
(C1) 对任意
θ
∈
Θ
\theta \in \Theta
θ∈Θ, 三阶导数
∂
j
log
f
(
x
;
θ
)
∂
θ
j
,
j
=
1
,
2
,
3
\frac{\partial^{j} \log f(x ; \theta)}{\partial \theta^{j}}, j=1,2,3
∂θj∂jlogf(x;θ),j=1,2,3对任意
x
x
x均成立。
(C2) 对每一
θ
0
∈
Θ
\theta_{0} \in \Theta
θ0∈Θ, 存在函数
h
1
(
x
)
,
h
2
(
x
)
h_{1}(x), h_{2}(x)
h1(x),h2(x) 和
H
(
x
)
H(x)
H(x) (可能含
θ
0
\theta_{0}
θ0 ) 使得在
θ
\theta
θ 的一个邻域
N
(
θ
0
)
N\left(\theta_{0}\right)
N(θ0)里有
∣
∂
f
(
x
;
θ
)
∂
θ
∣
≤
h
1
(
x
)
,
∣
∂
2
f
(
x
;
θ
)
∂
θ
2
∣
≤
h
2
(
x
)
,
∣
∂
3
log
f
(
x
;
θ
)
∂
θ
3
∣
≤
H
(
x
)
\left|\frac{\partial f(x ; \theta)}{\partial \theta}\right| \leq h_{1}(x),\left|\frac{\partial^{2} f(x ; \theta)}{\partial \theta^{2}}\right| \leq h_{2}(x),\left|\frac{\partial^{3} \log f(x ; \theta)}{\partial \theta^{3}}\right| \leq H(x)
∣∣∣∣∂θ∂f(x;θ)∣∣∣∣≤h1(x),∣∣∣∣∂θ2∂2f(x;θ)∣∣∣∣≤h2(x),∣∣∣∣∂θ3∂3logf(x;θ)∣∣∣∣≤H(x)
对所有
x
x
x均成立,其中
∫
h
1
(
x
)
d
x
<
∞
,
∫
h
2
(
x
)
d
x
<
∞
,
E
{
H
(
X
)
}
<
∞
for
θ
∈
N
(
θ
0
)
\int h_{1}(x) \mathrm{d} x<\infty, \int h_{2}(x) \mathrm{d} x<\infty, \mathrm{E}\{H(X)\}<\infty \text { for } \theta \in N\left(\theta_{0}\right)
∫h1(x)dx<∞,∫h2(x)dx<∞,E{H(X)}<∞ for θ∈N(θ0)
(C3) 对任意
θ
∈
Θ
,
0
<
I
(
θ
)
=
E
{
(
∂
log
f
(
x
;
θ
)
∂
θ
)
2
}
<
∞
\theta \in \Theta, 0<I(\theta)=\mathrm{E}\left\{\left(\frac{\partial \log f(x ; \theta)}{\partial \theta}\right)^{2}\right\}<\infty
θ∈Θ,0<I(θ)=E{(∂θ∂logf(x;θ))2}<∞
定理10.4(MLE与RLE的渐近性质):对于分布族 F \mathcal{F} F假设正则条件 ( C 1 ) − ( C 3 ) (C 1)-(C 3) (C1)−(C3)成立。设 X 1 , X 2 , … , X n X_{1}, X_{2}, \ldots, X_{n} X1,X2,…,Xn 为从 F θ F_{\theta} Fθ中获得的 i.i.d. 观测值则以概率一极大似然估计 { θ ^ n } \left\{\widehat{\theta}_{n}\right\} {θ n} 满足
- 强相合性: θ ^ n → θ \hat{\theta}_{n} \rightarrow \theta θ^n→θ as n → ∞ n \rightarrow \infty n→∞;
- 渐近正态性与渐近有效性: θ ^ n \hat{\theta}_{n} θ^n 服从 A N ( θ , { n I ( θ ) } − 1 ) . A N\left(\theta,\{n I(\theta)\}^{-1}\right) . AN(θ,{nI(θ)}−1).
但在许多情形下,得分函数的零点无显式解或不易求解。对于无显式解情形,可以使用迭代求解的方法对零点进行逼近,如Newton-Rhapson迭代法和Fisher得分法。
以下给出可以“替代”MLE的“最优解“,从而省去利用迭代法求解的过程:
一步RLE/MLE(one-step RLE/MLE):
θ
^
(
1
)
=
θ
^
(
0
)
−
{
s
n
′
(
θ
^
(
0
)
)
}
−
1
s
n
(
θ
^
(
0
)
)
\widehat{\theta}^{(1)}=\widehat{\theta}^{(0)}-\left\{s_{n}^{\prime}\left(\widehat{\theta}^{(0)}\right)\right\}^{-1} s_{n}\left(\widehat{\theta}^{(0)}\right)
θ
(1)=θ
(0)−{sn′(θ
(0))}−1sn(θ
(0))
定理10.5:假设 θ ^ ( 0 ) \widehat{\theta}^{(0)} θ (0) 为 θ \theta θ的 n \sqrt{n} n-相合估计量,则
- 一步RLE/MLE θ ^ ( 1 ) \widehat{\theta}^{(1)} θ (1) 是渐近有效的
- 在一步RLE/MLE中将 s n ′ ( θ ^ ( 0 ) ) s_{n}^{\prime}\left(\widehat{\theta}^{(0)}\right) sn′(θ (0)) 换为其期望值, − I ( θ ^ ( 0 ) ) -I\left(\widehat{\theta}^{(0)}\right) −I(θ (0))后仍为渐近有效的。
简单检验
而对于给定参数目标的情形,首先假设检验为简单假设: H 0 : θ = θ 0 H_{0}: \boldsymbol{\theta}=\boldsymbol{\theta}_{0} H0:θ=θ0
考虑一下三种检验统计量:
- 似然比统计量 (Neyman & Pearson, 1928):
Λ n = L ( θ 0 ) sup θ L ( θ ) \Lambda_{n}=\frac{L\left(\boldsymbol{\theta}_{0}\right)}{\sup _{\boldsymbol{\theta}} L(\boldsymbol{\theta})} Λn=supθL(θ)L(θ0)
或等价的定义 λ n = − 2 log Λ n \lambda_{n}=-2 \log \Lambda_{n} λn=−2logΛn
- Wald 统计量 (Wald, 1943):
W n = n ( θ ^ n − θ 0 ) ⊤ I ( θ ^ n ) ( θ ^ n − θ 0 ) W_{n}=n\left(\widehat{\boldsymbol{\theta}}_{n}-\boldsymbol{\theta}_{0}\right)^{\top} \boldsymbol{I}\left(\widehat{\boldsymbol{\theta}}_{n}\right)\left(\widehat{\boldsymbol{\theta}}_{n}-\boldsymbol{\theta}_{0}\right) Wn=n(θ n−θ0)⊤I(θ n)(θ n−θ0)
- Rao 统计量 (Rao, 1947):
R n = n s n ⊤ ( θ 0 ) I − 1 ( θ 0 ) s n ( θ 0 ) R_{n}=n \mathbf{s}_{n}^{\top}\left(\boldsymbol{\theta}_{0}\right) \boldsymbol{I}^{-1}\left(\theta_{0}\right) \mathbf{s}_{n}\left(\boldsymbol{\theta}_{0}\right) Rn=nsn⊤(θ0)I−1(θ0)sn(θ0)
引理10.6:设 X 1 , X 2 , … , X n ∼ i.i.d. F θ X_{1}, X_{2}, \ldots, X_{n} \stackrel{\text { i.i.d. }}{\sim} F_{\boldsymbol{\theta}} X1,X2,…,Xn∼ i.i.d. Fθ. 在正则条件下,
n ( θ ^ n − θ ) → d N ( 0 , I − 1 ( θ ) ) \sqrt{n}\left(\widehat{\boldsymbol{\theta}}_{n}-\boldsymbol{\theta}\right) \stackrel{d}{\rightarrow} N\left(0, \boldsymbol{I}^{-1}(\boldsymbol{\theta})\right) n(θ n−θ)→dN(0,I−1(θ))
n s n ( θ ) → d N ( 0 , I ( θ ) ) \sqrt{n} \mathbf{s}_{n}(\theta) \stackrel{d}{\rightarrow} N(0, I(\theta)) nsn(θ)→dN(0,I(θ))
n { s n ( θ ) − I ( θ ) ( θ ^ n − θ ) } = o p ( 1 ) \sqrt{n}\left\{\mathbf{s}_{n}(\boldsymbol{\theta})-\boldsymbol{I}(\boldsymbol{\theta})\left(\widehat{\boldsymbol{\theta}}_{n}-\boldsymbol{\theta}\right)\right\}=o_{p}(1) n{sn(θ)−I(θ)(θ n−θ)}=op(1)
- n ( θ ^ n − θ ) = n I − 1 ( θ ) s n ( θ ) + o p ( 1 ) \sqrt{n}\left(\widehat{\theta}_{n}-\theta\right)=\sqrt{n} I^{-1}(\theta) \mathrm{s}_{n}(\theta)+o_{p}(1) n(θ n−θ)=nI−1(θ)sn(θ)+op(1)
ℓ n ( θ ^ n ) − ℓ n ( θ ) = 1 2 n ( θ ^ n − θ ) ⊤ l ( θ ) ( θ ^ n − θ ) + o p ( 1 ) \ell_{n}\left(\widehat{\boldsymbol{\theta}}_{n}\right)-\ell_{n}(\boldsymbol{\theta})=\frac{1}{2} n\left(\widehat{\boldsymbol{\theta}}_{n}-\boldsymbol{\theta}\right)^{\top} \boldsymbol{l}(\boldsymbol{\theta})\left(\widehat{\boldsymbol{\theta}}_{n}-\boldsymbol{\theta}\right)+o_{p}(1) ℓn(θ n)−ℓn(θ)=21n(θ n−θ)⊤l(θ)(θ n−θ)+op(1), 其中 ℓ n ( θ ) = log L ( θ ) \ell_{n}(\theta)=\log L(\theta) ℓn(θ)=logL(θ)
- ℓ n ( θ ^ n ) − ℓ n ( θ ) = 1 2 n s n ⊤ ( θ ) Γ − 1 ( θ ) s n ( θ ) + o p ( 1 ) \ell_{n}\left(\widehat{\boldsymbol{\theta}}_{n}\right)-\ell_{n}(\boldsymbol{\theta})=\frac{1}{2} n \mathbf{s}_{n}^{\top}(\boldsymbol{\theta}) \boldsymbol{\Gamma}^{-1}(\boldsymbol{\theta}) \mathbf{s}_{n}(\boldsymbol{\theta})+o_{p}(1) ℓn(θ n)−ℓn(θ)=21nsn⊤(θ)Γ−1(θ)sn(θ)+op(1)
定理10.7:在 H 0 H_{0} H0下,统计量 λ n , W n \lambda_{n}, W_{n} λn,Wn 和 R n R_{n} Rn 分别依分布收敛到 χ k 2 \chi_{k}^{2} χk2 。
注:证明需利用引理8.6,详细过程参见Lecture notes on asymptotic statistics。
复杂检验
对于复杂检验 H 0 : θ ∈ Θ 0 H_{0}: \boldsymbol{\theta}\in {\Theta}_{0} H0:θ∈Θ0
三种检验统计量:
- 似然比统计量 (Neyman & Pearson, 1928):
Λ n = sup θ ∈ Θ 0 L ( θ ) sup θ ∈ Θ L ( θ ) = L ( θ ^ 0 n ) L ( θ ^ n ) \Lambda_{n}=\frac{\sup _{\boldsymbol{\theta} \in \Theta_{0}} L(\boldsymbol{\theta})}{\sup _{\boldsymbol{\theta} \in \Theta} L(\boldsymbol{\theta})}=\frac{L\left(\widehat{\boldsymbol{\theta}}_{0 n}\right)}{L\left(\widehat{\boldsymbol{\theta}}_{n}\right)} Λn=supθ∈ΘL(θ)supθ∈Θ0L(θ)=L(θ n)L(θ 0n)
或等价的定义 λ n = − 2 log Λ n \lambda_{n}=-2 \log \Lambda_{n} λn=−2logΛn
- Wald 统计量 (Wald, 1943):
W n = n R ⊤ ( θ ^ n ) { ∇ ⊤ R ( θ ^ n ) I − 1 ( θ ^ n ) ∇ R ( θ ^ n ) } − 1 R ( θ ^ n ) W_{n}=n \boldsymbol{R}^{\top}\left(\widehat{\boldsymbol{\theta}}_{n}\right)\left\{\nabla^{\top} \boldsymbol{R}\left(\widehat{\boldsymbol{\theta}}_{n}\right) \boldsymbol{I}^{-1}\left(\widehat{\boldsymbol{\theta}}_{n}\right) \nabla \boldsymbol{R}\left(\widehat{\boldsymbol{\theta}}_{n}\right)\right\}^{-1} \boldsymbol{R}\left(\widehat{\boldsymbol{\theta}}_{n}\right) Wn=nR⊤(θ n){∇⊤R(θ n)I−1(θ n)∇R(θ n)}−1R(θ n)
- Rao 统计量 (Rao, 1947):
R n = n s n ⊤ ( θ ^ 0 n ) I − 1 ( θ ^ 0 n ) s n ( θ ^ 0 n ) R_{n}=n \mathbf{s}_{n}^{\top}\left(\widehat{\boldsymbol{\theta}}_{0 n}\right) \boldsymbol{I}^{-1}\left(\widehat{\boldsymbol{\theta}}_{0 n}\right) \mathbf{s}_{n}\left(\widehat{\boldsymbol{\theta}}_{0 n}\right) Rn=nsn⊤(θ 0n)I−1(θ 0n)sn(θ 0n)
类似于简单检验情形,有以下收敛性质:
定理10.8:在假设 H 0 H_{0} H0 : θ ∈ Θ 0 \boldsymbol{\theta} \in \Theta_{0} θ∈Θ0 或可写成 θ = g ( ϑ ) \boldsymbol{\theta}=g(\boldsymbol{\vartheta}) θ=g(ϑ) , ϑ ∈ R k − r \boldsymbol{\vartheta} \in \mathbb{R}^{k-r} ϑ∈Rk−r下,统计量 λ n \lambda_{n} λn W n W_{n} Wn 和 R n R_{n} Rn 分别依分布收敛到 χ r 2 \chi_{r}^{2} χr2。