极限理论总结08：参数推断——渐近相对效率、一步MLE、似然比统计量/Wald统计量/Rao统计量

最新推荐文章于 2024-09-29 08:43:59 发布

子渔渔

最新推荐文章于 2024-09-29 08:43:59 发布

阅读量2.8k

点赞数 1

分类专栏：极限理论课程总结文章标签：概率论

本文链接：https://blog.csdn.net/lanlingmuzichun/article/details/120587822

版权

极限理论课程总结专栏收录该内容

8 篇文章 23 订阅

订阅专栏

文章目录

10.参数推断

10.参数推断

渐近相对效率

在参数模型中我们常常关心参数的值，但真值往往是未知的，这时我们需要对参数值进行推断。在这里常用到的是参数估计与假设检验。前者在无目标下估计参数的值，后者在有目标下检验对于参数的假设是否可以接受。

而在估计参数值时，常常是用样本的统计量对参数进行估计，并且使得这一统计量具有某种很好的性质，比如无偏性，最小化方差，最小化MSE等。但当有多个统计量都可以用来估计某参数时，我们应如何选择恰当的统计量？

在估计参数时，往往需要规定估计的精度，以下给出渐进相对效率的定义：

定义10.1（渐近相对效率）：设 $A$ 和 $B$ 为两个统计量， $n_A$ 和 $n_B$ 分别为使量统计量的估计达到统一精度时的样本量。定义 $B$ 与 $A$ 之间的渐进相对效率（ARE）为
$A)=\lim _{n_{A}, n_{B} \rightarrow \infty} \frac{n_{A}}{n_{B}}$

当 $A$ 与 $B$ 均为（单变量）无偏统计量时，上式可由量统计量的方差决定，此时也叫作渐近相对方差

$A)=\lim _{n_{A}, n_{B} \rightarrow \infty} \frac{n_{A}}{n_{B}}=\frac{\sigma_{A}^{2}(\theta)}{\sigma_{B}^{2}(\theta)}$

当 $A$ 与 $B$ 为多元情形时，若 $A$ 为 $N\left(\boldsymbol{\theta}, n^{-1} \Sigma_{1}(\boldsymbol{\theta})\right)$ ， $B$ 为 $N\left(\boldsymbol{\theta}, n^{-1} \Sigma_{2}(\boldsymbol{\theta})\right)$ , $B$ 与 $A$ 之间的渐近相对效率（ARE）定义为

$\left(B, A\right)=\lim _{n_{1}, n_{2} \rightarrow \infty} \frac{n_{1}}{n_{2}}=\left(\frac{\left|\Sigma_{1}(\theta)\right|}{\left|\Sigma_{2}(\theta)\right|}\right)^{\frac{1}{k}}$

定义 $B$ 优于 $A$ 为： $\left|\Sigma_{1}(\theta)\right| \leq\left|\Sigma_{2}(\theta)\right|$

此时我们能不能找到一个"最优"的统计量来估计 $\theta$ ？

渐近有效性

定义10.2（Fisher信息量）：设 $\boldsymbol{X}_{1}, \boldsymbol{X}_{2}, \ldots, \boldsymbol{X}_{n} \stackrel{\text { i.i.d. }}{\sim} F_{\boldsymbol{\theta}}$ , 其中 $\boldsymbol{\theta} \in \Theta \subset \mathbb{R}^{k}$ , $F_{\boldsymbol{\theta}}$ 有密度函数（pdf）或质量函数（pmf） $f(\boldsymbol{x} ; \boldsymbol{\theta})$ ，设 $\mathcal{F}=\left\{F_{\boldsymbol{\theta}}, \boldsymbol{\theta} \in \Theta\right\}$ 满足正则条件，Fisher信息量定义为
$\boldsymbol{I}(\boldsymbol{\theta})=\mathrm{E}\left[\frac{\partial \log f(\boldsymbol{X} ; \boldsymbol{\theta})}{\partial \boldsymbol{\theta}}\left\{\frac{\partial \log f(\boldsymbol{X} ; \boldsymbol{\theta})}{\partial \boldsymbol{\theta}}\right\}^{\top}\right]$
，并且为一正定矩阵。

定义10.3（渐近有效性）：估计量 $\widehat{\boldsymbol{\theta}}_{n}$ 服从 $N\left(\boldsymbol{\theta}, n^{-1} \Sigma(\boldsymbol{\theta})\right)$ 如果满足 $\Sigma(\boldsymbol{\theta})=\boldsymbol{I}^{-1}(\boldsymbol{\theta})$ ，则称其为渐进有效或渐进最优的。

正则条件：令 $\Theta$ 为 $\mathbb{R}$ 中的开区间，假设：
(C1) 对任意 $\theta \in \Theta$ , 三阶导数 $\frac{\partial^{j} \log f(x ; \theta)}{\partial \theta^{j}}, j=1,2,3$ 对任意 $x$ 均成立。
(C2) 对每一 $\theta_{0} \in \Theta$ , 存在函数 $h_{1}(x), h_{2}(x)$ 和 $H (x)$ (可能含 $\theta_{0}$ ) 使得在 $\theta$ 的一个邻域 $N\left(\theta_{0}\right)$ 里有
$\left|\frac{\partial f(x ; \theta)}{\partial \theta}\right| \leq h_{1}(x),\left|\frac{\partial^{2} f(x ; \theta)}{\partial \theta^{2}}\right| \leq h_{2}(x),\left|\frac{\partial^{3} \log f(x ; \theta)}{\partial \theta^{3}}\right| \leq H(x)$
对所有 $x$ 均成立，其中
$\int h_{1}(x) \mathrm{d} x<\infty, \int h_{2}(x) \mathrm{d} x<\infty, \mathrm{E}\{H(X)\}<\infty \text { for } \theta \in N\left(\theta_{0}\right)$
(C3) 对任意 $\theta \in \Theta, 0<I(\theta)=\mathrm{E}\left\{\left(\frac{\partial \log f(x ; \theta)}{\partial \theta}\right)^{2}\right\}<\infty$

定理10.4（MLE与RLE的渐近性质）：对于分布族 $\mathcal{F}$ 假设正则条件 $(C 1) - (C 3)$ 成立。设 $X_{1}, X_{2}, \ldots, X_{n}$ 为从 $F_{\theta}$ 中获得的 i.i.d. 观测值则以概率一极大似然估计 $\left\{\widehat{\theta}_{n}\right\}$ 满足

强相合性: $\hat{\theta}_{n} \rightarrow \theta$ as $\rightarrow \infty$ ;
渐近正态性与渐近有效性: $\hat{\theta}_{n}$ 服从 $N\left(\theta,\{n I(\theta)\}^{-1}\right) .$

但在许多情形下，得分函数的零点无显式解或不易求解。对于无显式解情形，可以使用迭代求解的方法对零点进行逼近，如Newton-Rhapson迭代法和Fisher得分法。

以下给出可以“替代”MLE的“最优解“，从而省去利用迭代法求解的过程：

一步RLE/MLE（one-step RLE/MLE）：
$\widehat{\theta}^{(1)}=\widehat{\theta}^{(0)}-\left\{s_{n}^{\prime}\left(\widehat{\theta}^{(0)}\right)\right\}^{-1} s_{n}\left(\widehat{\theta}^{(0)}\right)$

定理10.5：假设 $\widehat{\theta}^{(0)}$ 为 $\theta$ 的 $\sqrt{n}$ -相合估计量，则

一步RLE/MLE $\widehat{\theta}^{(1)}$ 是渐近有效的
在一步RLE/MLE中将 $s_{n}^{\prime}\left(\widehat{\theta}^{(0)}\right)$ 换为其期望值, $-I\left(\widehat{\theta}^{(0)}\right)$ 后仍为渐近有效的。

简单检验

而对于给定参数目标的情形，首先假设检验为简单假设： $H_{0}: \boldsymbol{\theta}=\boldsymbol{\theta}_{0}$

考虑一下三种检验统计量：

似然比统计量 (Neyman & Pearson, 1928):

$\Lambda_{n}=\frac{L\left(\boldsymbol{\theta}_{0}\right)}{\sup _{\boldsymbol{\theta}} L(\boldsymbol{\theta})}$

或等价的定义 $\lambda_{n}=-2 \log \Lambda_{n}$

Wald 统计量 (Wald, 1943):

$W_{n}=n\left(\widehat{\boldsymbol{\theta}}_{n}-\boldsymbol{\theta}_{0}\right)^{\top} \boldsymbol{I}\left(\widehat{\boldsymbol{\theta}}_{n}\right)\left(\widehat{\boldsymbol{\theta}}_{n}-\boldsymbol{\theta}_{0}\right)$

Rao 统计量 (Rao, 1947):

$R_{n}=n \mathbf{s}_{n}^{\top}\left(\boldsymbol{\theta}_{0}\right) \boldsymbol{I}^{-1}\left(\theta_{0}\right) \mathbf{s}_{n}\left(\boldsymbol{\theta}_{0}\right)$

引理10.6：设 $X_{1}, X_{2}, \ldots, X_{n} \stackrel{\text { i.i.d. }}{\sim} F_{\boldsymbol{\theta}}$ . 在正则条件下,

$\sqrt{n}\left(\widehat{\boldsymbol{\theta}}_{n}-\boldsymbol{\theta}\right) \stackrel{d}{\rightarrow} N\left(0, \boldsymbol{I}^{-1}(\boldsymbol{\theta})\right)$

$\sqrt{n} \mathbf{s}_{n}(\theta) \stackrel{d}{\rightarrow} N(0, I(\theta))$

$\sqrt{n}\left\{\mathbf{s}_{n}(\boldsymbol{\theta})-\boldsymbol{I}(\boldsymbol{\theta})\left(\widehat{\boldsymbol{\theta}}_{n}-\boldsymbol{\theta}\right)\right\}=o_{p}(1)$

$\sqrt{n}\left(\widehat{\theta}_{n}-\theta\right)=\sqrt{n} I^{-1}(\theta) \mathrm{s}_{n}(\theta)+o_{p}(1)$

$\ell_{n}\left(\widehat{\boldsymbol{\theta}}_{n}\right)-\ell_{n}(\boldsymbol{\theta})=\frac{1}{2} n\left(\widehat{\boldsymbol{\theta}}_{n}-\boldsymbol{\theta}\right)^{\top} \boldsymbol{l}(\boldsymbol{\theta})\left(\widehat{\boldsymbol{\theta}}_{n}-\boldsymbol{\theta}\right)+o_{p}(1)$ , 其中 $\ell_{n}(\theta)=\log L(\theta)$

$\ell_{n}\left(\widehat{\boldsymbol{\theta}}_{n}\right)-\ell_{n}(\boldsymbol{\theta})=\frac{1}{2} n \mathbf{s}_{n}^{\top}(\boldsymbol{\theta}) \boldsymbol{\Gamma}^{-1}(\boldsymbol{\theta}) \mathbf{s}_{n}(\boldsymbol{\theta})+o_{p}(1)$

定理10.7：在 $H_{0}$ 下,统计量 $\lambda_{n}, W_{n}$ 和 $R_{n}$ 分别依分布收敛到 $\chi_{k}^{2}$ 。

注：证明需利用引理8.6，详细过程参见Lecture notes on asymptotic statistics。

复杂检验

对于复杂检验 $H_{0}: \boldsymbol{\theta}\in {\Theta}_{0}$

三种检验统计量：

似然比统计量 (Neyman & Pearson, 1928):

$\Lambda_{n}=\frac{\sup _{\boldsymbol{\theta} \in \Theta_{0}} L(\boldsymbol{\theta})}{\sup _{\boldsymbol{\theta} \in \Theta} L(\boldsymbol{\theta})}=\frac{L\left(\widehat{\boldsymbol{\theta}}_{0 n}\right)}{L\left(\widehat{\boldsymbol{\theta}}_{n}\right)}$

或等价的定义 $\lambda_{n}=-2 \log \Lambda_{n}$

Wald 统计量 (Wald, 1943):

$W_{n}=n \boldsymbol{R}^{\top}\left(\widehat{\boldsymbol{\theta}}_{n}\right)\left\{\nabla^{\top} \boldsymbol{R}\left(\widehat{\boldsymbol{\theta}}_{n}\right) \boldsymbol{I}^{-1}\left(\widehat{\boldsymbol{\theta}}_{n}\right) \nabla \boldsymbol{R}\left(\widehat{\boldsymbol{\theta}}_{n}\right)\right\}^{-1} \boldsymbol{R}\left(\widehat{\boldsymbol{\theta}}_{n}\right)$

Rao 统计量 (Rao, 1947):

$R_{n}=n \mathbf{s}_{n}^{\top}\left(\widehat{\boldsymbol{\theta}}_{0 n}\right) \boldsymbol{I}^{-1}\left(\widehat{\boldsymbol{\theta}}_{0 n}\right) \mathbf{s}_{n}\left(\widehat{\boldsymbol{\theta}}_{0 n}\right)$

类似于简单检验情形，有以下收敛性质：

定理10.8：在假设 $H_{0}$ ： $\boldsymbol{\theta} \in \Theta_{0}$ 或可写成 $\boldsymbol{\theta}=g(\boldsymbol{\vartheta})$ ， $\boldsymbol{\vartheta} \in \mathbb{R}^{k-r}$ 下,统计量 $\lambda_{n}$ $W_{n}$ 和 $R_{n}$ 分别依分布收敛到 $\chi_{r}^{2}$ 。