Fisher信息量与Cramer-Rao不等式

最新推荐文章于 2025-03-20 21:55:23 发布

走过了笔尖

最新推荐文章于 2025-03-20 21:55:23 发布

阅读量2.4w

点赞数 42

分类专栏： Statictics MachineLearning 文章标签： Cramer-Rao Fisher信息量 Fisher 无偏性一致性

本文链接：https://blog.csdn.net/Queen0911/article/details/101487935

版权

Statictics 同时被 2 个专栏收录

1 篇文章

订阅专栏

MachineLearning

1 篇文章

订阅专栏

本文探讨了Cramer-Rao不等式及其在统计学中的应用，详细解析了Fisher信息量的概念，证明了信息量与二阶导数的关系，并通过实例展示了如何使用Cramer-Rao不等式评估参数估计的有效性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

今天在看一个问题的时候，无意间看到需要证明：
$E[\frac{\partial^2 ln(f(x:\theta)}{\partial \theta^2}] = \textbf{-}E\{(\frac{\partial lnf(x;\theta)}{ \partial\theta})^2\}$
结果查着查着，就查到了Fisher信息量的问题，顺便手推了一遍公式，感觉后面会忘记，抽点时间留手稿，打电子版是真浪费时间，每次都做很久的心里暗示(捂脸哭)。
备注：下面均是个人拙见，仅供参考。

一、评价统计量的三大标准

我们知道点估计一般主要包含：矩估计和极大似然估计。
矩估计主要思想是：如果总体中有 K个未知参数，可以用前 K阶样本矩估计相应的前k阶总体矩，然后利用未知参数与总体矩的函数关系，求出参数的估计量；
极大似然估计主要思想是已经发生的样本出现概率最大化。
对于已经获取的多个统计量，如何评价其参数估计是好还是坏，该如何选择呢？这里就要用到评价统计量的三大标准：无偏性、有效性、相合性(或一致性)。
下面简单介绍三大性质的主要内容：

无偏性
在统计学上称没有系统性偏差的性质为无偏性。严格数学定义为：
设 $\hat\theta=\hat\theta(x_1, x_2, \dots, x_n)$ 为母体 $X$ 的概率密度函数 $\{f(x, \theta):\theta\in\Theta\}$ 的未知参数 $\theta$ 的一个估计量。若对于一切 $\theta\in\Theta$ ，关系式：
$E_\theta[\hat\theta(x_1, x_2, \dots, x_n)] = \theta$
成立，则称 $\hat\theta(x_1, x_2, \dots, x_n)$ 为 $\theta$ 的无偏估计.
备注：这里角标 $\theta$ 不是对其求期望，可以理解为此处 $\theta$ 为常量，求完期望后，只剩含 $\theta$ 的数值.
有效性
我们知道，方差是用来形容随机变量落在其均值的领域内的离散/集中程度的一个度量，一个好的统计量不仅应该是待估计参数 $\theta$ 的无偏估计，而且还应该有尽可能小的方差。因此，哪一个统计量的方差小，那么哪一个统计量较好。严格数学定义为：
若参数 $\theta$ 有两个无偏估计 $\hat\theta_1$ 和 $\hat\theta_2$ ，他们的方差对一切 $\theta\in\Theta$ 有 $D(\hat\theta_1)\leq D(\hat\theta_2)$ ，称估计 $\hat\theta_1$ 比估计 $\hat\theta_2$ 有效.
相合性
简单来说，随着样本量增大，估计值与真值很接近的可能性非常大，即估计值与真值之差小于任何数 $\epsilon(>0)$ 依概率趋于1. 严格数学定义为：
设母体 $X$ 具有概率密度函数 $\theta), \theta\in\Theta$ 为未知参数. $\hat\theta_n=\hat\theta_n(x_1, x_2, \dots, x_n)$ 为 $\theta$ 的一个估计量， $n$ 为子样容量. 若为任意一个 $\epsilon>0$ ，有
$\lim_{n \to +\infty}P(|\hat\theta_n - \theta|\geq\epsilon)=0$
则称 $\hat\theta_n$ 为参数 $\theta$ 的相合估计.
本文我们主要想讨论Fisher信息量及Cramer-Rao不等式，这里就与上面提到的有效性有关系。提到有效性，我们自然有这样一个想法，就是希望估计量的方差愈小愈好. 那么能够小到什么程度呢？也就是有没有下界？什么条件下方差下界存在？下面就讨论建立一个方差下界的Cramer-Rao不等式.

二、Cramer-Rao不等式

2.1 Cramer-Rao不等式(数学定义)

设 $x_1, x_2, \dots,x_n$ 为取自具有概率密度函数 $f(x;\theta), \theta\in\Theta={\theta: a<\theta<b}$ 的母体 $X$ 的一个子集， $a, b$ 为已知常数， $a$ 可以取 $-\infty$ ， $b$ 可以取 $+\infty$ . 又 $\eta=\mu(x_1, x_2, \dots,x_n)$ 是 $g(\theta)$ 的一个无偏估计，且满足正则条件：
(1) 集合 $\{x: f(x;\theta)>0\}$ 与 $\theta$ 无关；
(2) $g^{'}(\theta)$ 与 $\frac{\partial f(x;\theta)}{\partial\theta}$ 存在，且对一切 $\theta\in\Theta$ ，
$\frac{\partial}{\partial\theta}\int f(x;\theta)dx = \int\frac{\partial f(x; \theta)}{\partial\theta}dx$
$\frac{\partial}{\partial\theta}\int\int\dots\int \mu(x_1, x_2, \dots,x_n)f(x_1;\theta)f(x_2;\theta)\dots f(x_n;\theta)dx_1dx_2\dots dx_n = \\ \int\int\dots\int\mu(x_1, x_2, \dots,x_n)\frac{\partial}{\partial\theta}[\prod_{i=1}^nf(x_i;\theta)]dx_1dx_2\dots dx_n$
(3) 令
$I(\theta) = E_\theta\{(\frac{\partial lnf(x;\theta)}{ \partial\theta})^2\}$
成为Fisher信息量，则
$D_\theta\eta\geq\frac{[g^{'}(\theta)]^2}{nI(\theta)}$
且其等式成立的充要条件为存在一个不依赖于 $x_1,x_2,\dots,x_n$ ，但可能依赖于 $\theta$ 的 $K$ ，使得等式
$\sum_{i=1}^{n}\frac{\partial lnf(x_i;\theta)}{ \partial\theta} = K(\eta - g(\theta))$
以概率1成立.
特别地当 $g(\theta)=\theta$ 时，不等式化为
$D_\theta\eta\geq\frac{1}{nI(\theta)}$
证明：
后续待补充

2.2 证明：信息量等于二阶导的期望

这个重要性质，其实是为了方便计算信息量 $I(\theta)]$ 而证明出来的。数学定义为：
若 $\frac{\partial}{\partial\theta}\int\frac{\partial f(x;\theta)}{\partial\theta}dx = \int\frac{\partial^2 f(x;\theta)}{\partial\theta^2}dx$
则：
$I(\theta) = -E[\frac{\partial^2 ln(f(x;\theta)}{\partial \theta^2}]$
证明：
$\begin{aligned} E[\frac{\partial ln(f(x;\theta)}{\partial \theta}] =& \int\frac{1}{f(x;\theta)}*\frac{\partial f(x;\theta)}{\partial\theta}*f(x;\theta)dx\\ =& \int\frac{\partial f(x;\theta)}{\partial\theta}dx\\ =& \underline{\frac{\partial}{\partial\theta}\int f(x;\theta)dx}\\ =& \frac{\partial}{\partial\theta}*1 \\ =& \underline{0} \end{aligned}$
因此有：
$\int\frac{\partial^2 f(x;\theta)}{\partial\theta^2}dx = \frac{\partial}{\partial\theta}\int\frac{\partial f(x;\theta)}{\partial\theta}dx = 0$

由方差定义 $Var(X)=EX^2 - (EX)^2$ 及 $E[\frac{\partial ln(f(x;\theta)}{\partial \theta}]=0$ 知：
$\begin{aligned} Var[\frac{\partial ln(f(x;\theta)}{\partial \theta}] =& E[(\frac{\partial ln(f(x;\theta)}{\partial \theta})^2] - \{E[\frac{\partial ln(f(x;\theta)}{\partial \theta}] \}^2 \\ =& E[(\frac{\partial ln(f(x;\theta)}{\partial \theta})^2] \end{aligned}$
又
$\begin{aligned} E[\frac{\partial^2 ln(f(x;\theta)}{\partial \theta^2}] &= \int\frac{\partial}{\partial\theta}(\frac{\partial ln(f(x;\theta)}{\partial \theta})f(x;\theta)dx \\ &= \int\frac{\partial}{\partial\theta} \Big( \frac{ \frac{\partial f(x;\theta)}{\partial\theta} }{f(x;\theta)} \Big) f(x;\theta)dx \\ &= \int\frac{\frac{\partial^2f(x;\theta)}{\partial\theta^2}*f(x;\theta) - \frac{\partial f(x;\theta)}{\partial\theta} *\frac{\partial f(x;\theta)}{\partial\theta}}{f(x;\theta)^2}f(x;\theta)dx \\ &= \underline{\int\frac{\partial^2f(x;\theta)}{\partial\theta^2}dx} - \int\Big(\frac{\frac{\partial f(x;\theta)}{\partial\theta}}{f(x;\theta)}\Big)^2f(x;\theta)dx \\ &= 0 - \int\Big(\frac{\partial lnf(x;\theta)}{\partial\theta}\Big)^2f(x;\theta)dx \\ &= - E\Big(\frac{\partial lnf(x;\theta)}{\partial\theta}\Big)^2 \end{aligned}$
再结合 $I(\theta)$ 定义，得：
$I(\theta) = E\Big(\frac{\partial lnf(x;\theta)}{\partial\theta}\Big)^2 = -E[\frac{\partial^2 ln(f(x;\theta)}{\partial \theta^2}] = -Var[\frac{\partial ln(f(x;\theta)}{\partial \theta}]$

2.3 推导中有意思的点

信息量的计算方式
根据上述性质，信息量的计算可以借助概率密度函数的对数二阶导获取.
一阶导与二阶导的巧妙
一阶导数的平方的期望等于二阶导的期望.

2.4 Cramer-Rao应用案例

假设 $X$ ~ $B (1, p)$ ，即X服从两点分布. 其概率密度函数为：
$f(x;p)=\left\{ \begin{aligned} & p^x(1-p)^{1-x}, \ x=0,1 \\ & 0, \ \ 其它\\ \end{aligned} \right. \ \ \ 0<p<1$
于是：
$\frac{\partial lnf(x;p)}{\partial p} = \frac{\partial ln[x^p(1-x)^p]}{\partial p} = \frac{x}{p} - \frac{x}{1-p}$

$\frac{\partial^2 lnf(x;p)}{\partial p^2} = \frac{\partial [\frac{x}{p} - \frac{1-x}{1-p}]}{\partial p} =- \frac{x}{p^2} - \frac{x}{(1-p)^2}$
又因：E(X)=p
$E[-\frac{\partial^2 lnf(x;p)}{\partial p^2}] = E[ \frac{x}{p^2} + \frac{x}{(1-p)^2}]=\frac{1}{p(1-p)}$
已知 $X$ 的无偏估计为： $\bar{X}$ 且其方差为： $\frac{p(1-p)}{n}$
又
$\frac{p(1-p)}{n} = Var(\bar{X})$
从而 $\bar{X}$ 的方差达到了Cramer-Rao下界.