09.第三章点估计(4)

最新推荐文章于 2024-02-26 16:44:25 发布

江景页

最新推荐文章于 2024-02-26 16:44:25 发布

阅读量1.1k

点赞数

分类专栏：《数理统计》学习笔记文章标签：概率论

本文链接：https://blog.csdn.net/jingye333/article/details/108524782

版权

《数理统计》学习笔记专栏收录该内容

21 篇文章 27 订阅

订阅专栏

第三章点估计(4)

1.Cramer-Rao不等式（C-R不等式）

C-R不等式是判别一个无偏估计量是否为UMVUE的方法之一，其思想是对于 $g(\theta)$ 的无偏估计类 $\mathscr U_g$ ，里面的无偏估计有一个方差下界，如果能找到一个 $\hat g$ 的方差到达这个下界，这个 $\hat g$ 就是 $g(\theta)$ 的一个UMVUE。这个方差下界，就由C-R不等式取得。

要满足这个不等式，需要满足一定的条件——正则条件。对于单参数概率函数族 $\mathscr F=\{f(x,\theta),\theta\in\Theta\}$ ，满足以下条件：

参数空间 $\Theta$ 是直线上的某个开区间；
对任何 $x\in \mathscr X$ 及 $\theta \in \Theta$ ， $f(x,\theta)>0$ ，即分布族拥有共同的支撑；
对任何 $x\in \mathscr X$ 及 $\theta \in \Theta$ ， $\frac{\partial f(x,\theta)}{\partial\theta}$ 存在；
概率函数 $f(x,\theta)$ 的积分与微分可交换，即
$\frac{\partial }{\partial \theta}\int f(x,\theta)dx=\int \frac{\partial}{\partial\theta}f(x,\theta)dx$
如果是离散随机变量的分布，则无穷级数与微分可交换。
Fisher信息量 $I(\theta)$ 存在，且 $0<I(\theta)<\infty$ ，这里
$I(\theta)=E_\theta\left[\frac{\partial\ln f(x,\theta)}{\partial \theta}\right]^2$

满足以上五个条件的分布族被称为C-R正则分布族，这五个条件称为C-R正则条件。

对于满足C-R正则条件的分布族， $\hat g(X)$ 是 $g(\theta)$ 的任一无偏估计，且满足
$\int\cdots\int\hat g(\boldsymbol x)f(\boldsymbol x,\theta)d\boldsymbol x,d\boldsymbol x=dx_1\cdots dx_n$
可以在积分下对 $\theta$ 求导数，则有以下不等式（C-R不等式）成立：
$D_\theta[\hat g(\boldsymbol X)]\ge\frac{(g'(\theta))^2}{nI(\theta)},\forall \theta\in \Theta$
特别当 $g(\theta)=\theta$ 时，有 $D_\theta[\hat g(\boldsymbol X)]\ge (nI(\theta))^{-1}$ 。

对于一般的分布族，要验证是否符合1~5正则条件与积分号下可微的条件，比较麻烦；但对于指数族，上述六条性质都满足。

C-R不等式给出的C-R下界并不一定就是UMVUE的方差，有时候UMVUE是达不到这个C-R下界的。这种情况下只能说用C-R不等式不能判别。关于能否达到C-R下界（即能否使不等式的等号成立），有以下结论：

如果样本分布族不是指数族，则任何 $g(\theta)$ 的无偏估计，其方差不能处处达到C-R不等式中的下界。
即使分布族是指数族，也唯有在 $g(\theta)=E_\theta(aT(\boldsymbol {X})+b)$ ，即 $\hat g(\boldsymbol X)=aT(\boldsymbol{X})+b$ 的情形下，才能够让估计量处处达到C-R下界。这里 $a, b$ 与 $\boldsymbol X$ 无关，但可以是 $\theta$ 的函数。

2.Fisher信息函数

Fisher信息函数即C-R不等式中的
$I(\theta)=E_\theta\left[\frac{\partial \ln f(X,\theta)}{\partial \theta}\right]^2$
不妨令 $g(\theta)=\theta$ ，并且其C-R下界可达到，则UMVUE的方差下界为 $\frac{1}{nI(\theta)}$ ，如果 $nI(\theta)$ 越大，则说明 $g(\theta)$ 可以估计得越精。

$n$ 作为样本容量，若以估计量方差的倒数作为精度的指标，则精度与样本容量成正比； $I(\theta)$ 则反映总体的性质，如果 $I(\theta)$ 越大，则意味着总体的参数越容易估计，总体模型本身提供的信息量越多，因此将 $I(\theta)$ 看作总体蕴含信息量的指标——信息函数。

整个样本中，每一个样本的地位是平等的，所以整个样本提供的信息量是 $nI(\theta)$ ，此时信息量 $I(\theta)$ 也可以被看作单个样本提供的信息量。

在极大似然估计MLE的渐进正态相合性中，我们得到的结论是
$\sqrt{n}(\hat \theta^*-\theta)\stackrel{\mathscr{L}}{\longrightarrow }N(0,\frac1{I(\theta)})\\ 即\hat\theta^*\stackrel{\mathscr L}{\longrightarrow}N(\theta,\frac1{nI(\theta)})$
即样本的信息量 $nI(\theta)$ 是MLE方差的倒数，这表明 $I(\theta)$ 越大，用MLE来估计 $\theta$ 就越精确。

3.多参数C-R不等式

矩阵的比较：设 $A=(a_{ij}),B=(b_{ij})$ 是同阶非负定矩阵，若 $A - B$ 是非负定的，则记作 $A\ge B$ ，此时必有 $a_{ii}\ge b_{ii},\forall i$ 。

现设 $\boldsymbol \theta=(\theta_1,\cdots,\theta_k)$ ，总体概率函数记作 $f(x,\boldsymbol \theta)$ ， $\boldsymbol X=(X_1,\cdots,X_n)$ 是总体中抽取的简单随机样本。设 $\hat {\boldsymbol \theta}=\hat \theta(\boldsymbol X)=(\hat \theta_1,\cdots,\hat \theta_k)$ 是 $\boldsymbol \theta$ 的一个无偏估计， $Cov_{\boldsymbol {\hat {\theta}}}(\hat {\boldsymbol \theta})$ 为其协方差矩阵，它是一个 $k$ 阶非负定方阵， $(i, j)$ 元为 $E_{\hat{\boldsymbol \theta}}[(\hat \theta_i-\theta_i)(\hat \theta_j - \theta_j)]$ ，则C-R不等式表现为
$Cov_{\hat {\boldsymbol \theta}}(\hat {\boldsymbol \theta})\ge(n\boldsymbol I(\boldsymbol \theta))^{-1}\\ \boldsymbol I(\boldsymbol \theta)=(I_{ij}(\boldsymbol \theta))\\ I_{ij}(\boldsymbol \theta)=E_\boldsymbol \theta \left[ \left( \frac{\partial \ln f(\boldsymbol X,\boldsymbol \theta)}{\partial \theta_i} \right) \left( \frac{\partial \ln f(\boldsymbol X,\boldsymbol\theta)}{\partial \theta_j} \right) \right]$
如果要判断其中每一个分量 $\hat \theta_i$ 的方差下界，则相对应地寻找 $(n\boldsymbol I(\boldsymbol \theta))^{-1}$ 的第 $(i, i)$ 项，这就是 $\hat \theta_i$ 的方差C-R下界。

4.估计的效率

估计的效率指无偏估计方差达到C-R下界的程度，由于
$D(\hat g(X))\ge\frac{(g'(\theta))^2}{nI(\theta)}$
因此控制效率在 $(0, 1]$ 之间，记无偏估计 $\hat g(X)$ 的效率为
$e_{\hat g}(\theta)=\frac{(g'(\theta))^2}{D(\hat g(X))\cdot nI(\theta)}$
如果 $e_{\hat g}(\theta)=1$ ，则称 $\hat g(X)$ 为 $g(\theta)$ 的有效估计，显然有效估计一定是UMVUE，但反之却不一定。很多UMVUE不是有效估计，这是因为C-R下界偏小，在很多场合达不到；也有可能因为分布族不是指数族、不满足正则条件，引起C-R不等式不成立，此时C-R下界就没意义了。