极限理论总结08:参数推断——渐近相对效率、一步MLE、似然比统计量/Wald统计量/Rao统计量

10.参数推断

渐近相对效率

在参数模型中我们常常关心参数的值,但真值往往是未知的,这时我们需要对参数值进行推断。在这里常用到的是参数估计与假设检验。前者在无目标下估计参数的值,后者在有目标下检验对于参数的假设是否可以接受。

而在估计参数值时,常常是用样本的统计量对参数进行估计,并且使得这一统计量具有某种很好的性质,比如无偏性,最小化方差,最小化MSE等。但当有多个统计量都可以用来估计某参数时,我们应如何选择恰当的统计量?

在估计参数时,往往需要规定估计的精度,以下给出渐进相对效率的定义:

定义10.1(渐近相对效率):设 A A A B B B为两个统计量, n A n_A nA n B n_B nB分别为使量统计量的估计达到统一精度时的样本量。定义 B B B A A A之间的渐进相对效率(ARE)为
e ( B , A ) = lim ⁡ n A , n B → ∞ n A n B e(B, A)=\lim _{n_{A}, n_{B} \rightarrow \infty} \frac{n_{A}}{n_{B}} e(B,A)=nA,nBlimnBnA

  • A A A B B B均为(单变量)无偏统计量时,上式可由量统计量的方差决定,此时也叫作渐近相对方差

e ( B , A ) = lim ⁡ n A , n B → ∞ n A n B = σ A 2 ( θ ) σ B 2 ( θ ) e(B, A)=\lim _{n_{A}, n_{B} \rightarrow \infty} \frac{n_{A}}{n_{B}}=\frac{\sigma_{A}^{2}(\theta)}{\sigma_{B}^{2}(\theta)} e(B,A)=nA,nBlimnBnA=σB2(θ)σA2(θ)

  • A A A B B B为多元情形时,若 A A A A N ( θ , n − 1 Σ 1 ( θ ) ) A N\left(\boldsymbol{\theta}, n^{-1} \Sigma_{1}(\boldsymbol{\theta})\right) AN(θ,n1Σ1(θ)) B B B A N ( θ , n − 1 Σ 2 ( θ ) ) A N\left(\boldsymbol{\theta}, n^{-1} \Sigma_{2}(\boldsymbol{\theta})\right) AN(θ,n1Σ2(θ)), B B B A A A之间的渐近相对效率(ARE)定义为

( B , A ) = lim ⁡ n 1 , n 2 → ∞ n 1 n 2 = ( ∣ Σ 1 ( θ ) ∣ ∣ Σ 2 ( θ ) ∣ ) 1 k \left(B, A\right)=\lim _{n_{1}, n_{2} \rightarrow \infty} \frac{n_{1}}{n_{2}}=\left(\frac{\left|\Sigma_{1}(\theta)\right|}{\left|\Sigma_{2}(\theta)\right|}\right)^{\frac{1}{k}} (B,A)=n1,n2limn2n1=(Σ2(θ)Σ1(θ))k1

定义 B B B优于 A A A为: ∣ Σ 1 ( θ ) ∣ ≤ ∣ Σ 2 ( θ ) ∣ \left|\Sigma_{1}(\theta)\right| \leq\left|\Sigma_{2}(\theta)\right| Σ1(θ)Σ2(θ)

此时我们能不能找到一个"最优"的统计量来估计 θ \theta θ

渐近有效性

定义10.2(Fisher信息量):设 X 1 , X 2 , … , X n ∼  i.i.d.  F θ \boldsymbol{X}_{1}, \boldsymbol{X}_{2}, \ldots, \boldsymbol{X}_{n} \stackrel{\text { i.i.d. }}{\sim} F_{\boldsymbol{\theta}} X1,X2,,Xn i.i.d. Fθ, 其中 θ ∈ Θ ⊂ R k \boldsymbol{\theta} \in \Theta \subset \mathbb{R}^{k} θΘRk, F θ F_{\boldsymbol{\theta}} Fθ 有密度函数(pdf)或质量函数(pmf) f ( x ; θ ) f(\boldsymbol{x} ; \boldsymbol{\theta}) f(x;θ),设 F = { F θ , θ ∈ Θ } \mathcal{F}=\left\{F_{\boldsymbol{\theta}}, \boldsymbol{\theta} \in \Theta\right\} F={Fθ,θΘ}满足正则条件,Fisher信息量定义为
I ( θ ) = E [ ∂ log ⁡ f ( X ; θ ) ∂ θ { ∂ log ⁡ f ( X ; θ ) ∂ θ } ⊤ ] \boldsymbol{I}(\boldsymbol{\theta})=\mathrm{E}\left[\frac{\partial \log f(\boldsymbol{X} ; \boldsymbol{\theta})}{\partial \boldsymbol{\theta}}\left\{\frac{\partial \log f(\boldsymbol{X} ; \boldsymbol{\theta})}{\partial \boldsymbol{\theta}}\right\}^{\top}\right] I(θ)=E[θlogf(X;θ){θlogf(X;θ)}]
,并且为一正定矩阵。

定义10.3(渐近有效性):估计量 θ ^ n \widehat{\boldsymbol{\theta}}_{n} θ n 服从 A N ( θ , n − 1 Σ ( θ ) ) A N\left(\boldsymbol{\theta}, n^{-1} \Sigma(\boldsymbol{\theta})\right) AN(θ,n1Σ(θ)) 如果满足 Σ ( θ ) = I − 1 ( θ ) \Sigma(\boldsymbol{\theta})=\boldsymbol{I}^{-1}(\boldsymbol{\theta}) Σ(θ)=I1(θ),则称其为渐进有效或渐进最优的。

正则条件:令 Θ \Theta Θ R \mathbb{R} R中的开区间,假设:
(C1) 对任意 θ ∈ Θ \theta \in \Theta θΘ, 三阶导数 ∂ j log ⁡ f ( x ; θ ) ∂ θ j , j = 1 , 2 , 3 \frac{\partial^{j} \log f(x ; \theta)}{\partial \theta^{j}}, j=1,2,3 θjjlogf(x;θ),j=1,2,3对任意 x x x均成立。
(C2) 对每一 θ 0 ∈ Θ \theta_{0} \in \Theta θ0Θ, 存在函数 h 1 ( x ) , h 2 ( x ) h_{1}(x), h_{2}(x) h1(x),h2(x) H ( x ) H(x) H(x) (可能含 θ 0 \theta_{0} θ0 ) 使得在 θ \theta θ 的一个邻域 N ( θ 0 ) N\left(\theta_{0}\right) N(θ0)里有
∣ ∂ f ( x ; θ ) ∂ θ ∣ ≤ h 1 ( x ) , ∣ ∂ 2 f ( x ; θ ) ∂ θ 2 ∣ ≤ h 2 ( x ) , ∣ ∂ 3 log ⁡ f ( x ; θ ) ∂ θ 3 ∣ ≤ H ( x ) \left|\frac{\partial f(x ; \theta)}{\partial \theta}\right| \leq h_{1}(x),\left|\frac{\partial^{2} f(x ; \theta)}{\partial \theta^{2}}\right| \leq h_{2}(x),\left|\frac{\partial^{3} \log f(x ; \theta)}{\partial \theta^{3}}\right| \leq H(x) θf(x;θ)h1(x),θ22f(x;θ)h2(x),θ33logf(x;θ)H(x)
对所有 x x x均成立,其中
∫ h 1 ( x ) d x < ∞ , ∫ h 2 ( x ) d x < ∞ , E { H ( X ) } < ∞  for  θ ∈ N ( θ 0 ) \int h_{1}(x) \mathrm{d} x<\infty, \int h_{2}(x) \mathrm{d} x<\infty, \mathrm{E}\{H(X)\}<\infty \text { for } \theta \in N\left(\theta_{0}\right) h1(x)dx<,h2(x)dx<,E{H(X)}< for θN(θ0)
(C3) 对任意 θ ∈ Θ , 0 < I ( θ ) = E { ( ∂ log ⁡ f ( x ; θ ) ∂ θ ) 2 } < ∞ \theta \in \Theta, 0<I(\theta)=\mathrm{E}\left\{\left(\frac{\partial \log f(x ; \theta)}{\partial \theta}\right)^{2}\right\}<\infty θΘ,0<I(θ)=E{(θlogf(x;θ))2}<

定理10.4(MLE与RLE的渐近性质):对于分布族 F \mathcal{F} F假设正则条件 ( C 1 ) − ( C 3 ) (C 1)-(C 3) (C1)(C3)成立。设 X 1 , X 2 , … , X n X_{1}, X_{2}, \ldots, X_{n} X1,X2,,Xn 为从 F θ F_{\theta} Fθ中获得的 i.i.d. 观测值则以概率一极大似然估计 { θ ^ n } \left\{\widehat{\theta}_{n}\right\} {θ n} 满足

  • 强相合性: θ ^ n → θ \hat{\theta}_{n} \rightarrow \theta θ^nθ as n → ∞ n \rightarrow \infty n;
  • 渐近正态性与渐近有效性: θ ^ n \hat{\theta}_{n} θ^n 服从 A N ( θ , { n I ( θ ) } − 1 ) . A N\left(\theta,\{n I(\theta)\}^{-1}\right) . AN(θ,{nI(θ)}1).

但在许多情形下,得分函数的零点无显式解或不易求解。对于无显式解情形,可以使用迭代求解的方法对零点进行逼近,如Newton-Rhapson迭代法和Fisher得分法。

以下给出可以“替代”MLE的“最优解“,从而省去利用迭代法求解的过程:

一步RLE/MLE(one-step RLE/MLE):
θ ^ ( 1 ) = θ ^ ( 0 ) − { s n ′ ( θ ^ ( 0 ) ) } − 1 s n ( θ ^ ( 0 ) ) \widehat{\theta}^{(1)}=\widehat{\theta}^{(0)}-\left\{s_{n}^{\prime}\left(\widehat{\theta}^{(0)}\right)\right\}^{-1} s_{n}\left(\widehat{\theta}^{(0)}\right) θ (1)=θ (0){sn(θ (0))}1sn(θ (0))

定理10.5:假设 θ ^ ( 0 ) \widehat{\theta}^{(0)} θ (0) θ \theta θ n \sqrt{n} n -相合估计量,则

  • 一步RLE/MLE θ ^ ( 1 ) \widehat{\theta}^{(1)} θ (1) 是渐近有效的
  • 在一步RLE/MLE中将 s n ′ ( θ ^ ( 0 ) ) s_{n}^{\prime}\left(\widehat{\theta}^{(0)}\right) sn(θ (0)) 换为其期望值, − I ( θ ^ ( 0 ) ) -I\left(\widehat{\theta}^{(0)}\right) I(θ (0))后仍为渐近有效的。

简单检验

而对于给定参数目标的情形,首先假设检验为简单假设: H 0 : θ = θ 0 H_{0}: \boldsymbol{\theta}=\boldsymbol{\theta}_{0} H0:θ=θ0

考虑一下三种检验统计量:

  • 似然比统计量 (Neyman & Pearson, 1928):

Λ n = L ( θ 0 ) sup ⁡ θ L ( θ ) \Lambda_{n}=\frac{L\left(\boldsymbol{\theta}_{0}\right)}{\sup _{\boldsymbol{\theta}} L(\boldsymbol{\theta})} Λn=supθL(θ)L(θ0)

​ 或等价的定义 λ n = − 2 log ⁡ Λ n \lambda_{n}=-2 \log \Lambda_{n} λn=2logΛn

  • Wald 统计量 (Wald, 1943):

W n = n ( θ ^ n − θ 0 ) ⊤ I ( θ ^ n ) ( θ ^ n − θ 0 ) W_{n}=n\left(\widehat{\boldsymbol{\theta}}_{n}-\boldsymbol{\theta}_{0}\right)^{\top} \boldsymbol{I}\left(\widehat{\boldsymbol{\theta}}_{n}\right)\left(\widehat{\boldsymbol{\theta}}_{n}-\boldsymbol{\theta}_{0}\right) Wn=n(θ nθ0)I(θ n)(θ nθ0)

  • Rao 统计量 (Rao, 1947):

R n = n s n ⊤ ( θ 0 ) I − 1 ( θ 0 ) s n ( θ 0 ) R_{n}=n \mathbf{s}_{n}^{\top}\left(\boldsymbol{\theta}_{0}\right) \boldsymbol{I}^{-1}\left(\theta_{0}\right) \mathbf{s}_{n}\left(\boldsymbol{\theta}_{0}\right) Rn=nsn(θ0)I1(θ0)sn(θ0)

引理10.6:设 X 1 , X 2 , … , X n ∼  i.i.d.  F θ X_{1}, X_{2}, \ldots, X_{n} \stackrel{\text { i.i.d. }}{\sim} F_{\boldsymbol{\theta}} X1,X2,,Xn i.i.d. Fθ. 在正则条件下,

  • n ( θ ^ n − θ ) → d N ( 0 , I − 1 ( θ ) ) \sqrt{n}\left(\widehat{\boldsymbol{\theta}}_{n}-\boldsymbol{\theta}\right) \stackrel{d}{\rightarrow} N\left(0, \boldsymbol{I}^{-1}(\boldsymbol{\theta})\right) n (θ nθ)dN(0,I1(θ))

  • n s n ( θ ) → d N ( 0 , I ( θ ) ) \sqrt{n} \mathbf{s}_{n}(\theta) \stackrel{d}{\rightarrow} N(0, I(\theta)) n sn(θ)dN(0,I(θ))

  • n { s n ( θ ) − I ( θ ) ( θ ^ n − θ ) } = o p ( 1 ) \sqrt{n}\left\{\mathbf{s}_{n}(\boldsymbol{\theta})-\boldsymbol{I}(\boldsymbol{\theta})\left(\widehat{\boldsymbol{\theta}}_{n}-\boldsymbol{\theta}\right)\right\}=o_{p}(1) n {sn(θ)I(θ)(θ nθ)}=op(1)

    • n ( θ ^ n − θ ) = n I − 1 ( θ ) s n ( θ ) + o p ( 1 ) \sqrt{n}\left(\widehat{\theta}_{n}-\theta\right)=\sqrt{n} I^{-1}(\theta) \mathrm{s}_{n}(\theta)+o_{p}(1) n (θ nθ)=n I1(θ)sn(θ)+op(1)
  • ℓ n ( θ ^ n ) − ℓ n ( θ ) = 1 2 n ( θ ^ n − θ ) ⊤ l ( θ ) ( θ ^ n − θ ) + o p ( 1 ) \ell_{n}\left(\widehat{\boldsymbol{\theta}}_{n}\right)-\ell_{n}(\boldsymbol{\theta})=\frac{1}{2} n\left(\widehat{\boldsymbol{\theta}}_{n}-\boldsymbol{\theta}\right)^{\top} \boldsymbol{l}(\boldsymbol{\theta})\left(\widehat{\boldsymbol{\theta}}_{n}-\boldsymbol{\theta}\right)+o_{p}(1) n(θ n)n(θ)=21n(θ nθ)l(θ)(θ nθ)+op(1), 其中 ℓ n ( θ ) = log ⁡ L ( θ ) \ell_{n}(\theta)=\log L(\theta) n(θ)=logL(θ)

    • ℓ n ( θ ^ n ) − ℓ n ( θ ) = 1 2 n s n ⊤ ( θ ) Γ − 1 ( θ ) s n ( θ ) + o p ( 1 ) \ell_{n}\left(\widehat{\boldsymbol{\theta}}_{n}\right)-\ell_{n}(\boldsymbol{\theta})=\frac{1}{2} n \mathbf{s}_{n}^{\top}(\boldsymbol{\theta}) \boldsymbol{\Gamma}^{-1}(\boldsymbol{\theta}) \mathbf{s}_{n}(\boldsymbol{\theta})+o_{p}(1) n(θ n)n(θ)=21nsn(θ)Γ1(θ)sn(θ)+op(1)

定理10.7:在 H 0 H_{0} H0下,统计量 λ n , W n \lambda_{n}, W_{n} λn,Wn R n R_{n} Rn 分别依分布收敛到 χ k 2 \chi_{k}^{2} χk2

注:证明需利用引理8.6,详细过程参见Lecture notes on asymptotic statistics。

复杂检验

对于复杂检验 H 0 : θ ∈ Θ 0 H_{0}: \boldsymbol{\theta}\in {\Theta}_{0} H0:θΘ0

三种检验统计量:

  • 似然比统计量 (Neyman & Pearson, 1928):

Λ n = sup ⁡ θ ∈ Θ 0 L ( θ ) sup ⁡ θ ∈ Θ L ( θ ) = L ( θ ^ 0 n ) L ( θ ^ n ) \Lambda_{n}=\frac{\sup _{\boldsymbol{\theta} \in \Theta_{0}} L(\boldsymbol{\theta})}{\sup _{\boldsymbol{\theta} \in \Theta} L(\boldsymbol{\theta})}=\frac{L\left(\widehat{\boldsymbol{\theta}}_{0 n}\right)}{L\left(\widehat{\boldsymbol{\theta}}_{n}\right)} Λn=supθΘL(θ)supθΘ0L(θ)=L(θ n)L(θ 0n)

​ 或等价的定义 λ n = − 2 log ⁡ Λ n \lambda_{n}=-2 \log \Lambda_{n} λn=2logΛn

  • Wald 统计量 (Wald, 1943):

W n = n R ⊤ ( θ ^ n ) { ∇ ⊤ R ( θ ^ n ) I − 1 ( θ ^ n ) ∇ R ( θ ^ n ) } − 1 R ( θ ^ n ) W_{n}=n \boldsymbol{R}^{\top}\left(\widehat{\boldsymbol{\theta}}_{n}\right)\left\{\nabla^{\top} \boldsymbol{R}\left(\widehat{\boldsymbol{\theta}}_{n}\right) \boldsymbol{I}^{-1}\left(\widehat{\boldsymbol{\theta}}_{n}\right) \nabla \boldsymbol{R}\left(\widehat{\boldsymbol{\theta}}_{n}\right)\right\}^{-1} \boldsymbol{R}\left(\widehat{\boldsymbol{\theta}}_{n}\right) Wn=nR(θ n){R(θ n)I1(θ n)R(θ n)}1R(θ n)

  • Rao 统计量 (Rao, 1947):

R n = n s n ⊤ ( θ ^ 0 n ) I − 1 ( θ ^ 0 n ) s n ( θ ^ 0 n ) R_{n}=n \mathbf{s}_{n}^{\top}\left(\widehat{\boldsymbol{\theta}}_{0 n}\right) \boldsymbol{I}^{-1}\left(\widehat{\boldsymbol{\theta}}_{0 n}\right) \mathbf{s}_{n}\left(\widehat{\boldsymbol{\theta}}_{0 n}\right) Rn=nsn(θ 0n)I1(θ 0n)sn(θ 0n)

类似于简单检验情形,有以下收敛性质:

定理10.8:在假设 H 0 H_{0} H0 θ ∈ Θ 0 \boldsymbol{\theta} \in \Theta_{0} θΘ0 或可写成 θ = g ( ϑ ) \boldsymbol{\theta}=g(\boldsymbol{\vartheta}) θ=g(ϑ) ϑ ∈ R k − r \boldsymbol{\vartheta} \in \mathbb{R}^{k-r} ϑRkr下,统计量 λ n \lambda_{n} λn W n W_{n} Wn R n R_{n} Rn 分别依分布收敛到 χ r 2 \chi_{r}^{2} χr2

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值