今天在看一个问题的时候,无意间看到需要证明:
E
[
∂
2
l
n
(
f
(
x
:
θ
)
∂
θ
2
]
=
-
E
{
(
∂
l
n
f
(
x
;
θ
)
∂
θ
)
2
}
E[\frac{\partial^2 ln(f(x:\theta)}{\partial \theta^2}] = \textbf{-}E\{(\frac{\partial lnf(x;\theta)}{ \partial\theta})^2\}
E[∂θ2∂2ln(f(x:θ)]=-E{(∂θ∂lnf(x;θ))2}
结果查着查着,就查到了Fisher信息量的问题,顺便手推了一遍公式,感觉后面会忘记,抽点时间留手稿,打电子版是真浪费时间,每次都做很久的心里暗示(捂脸哭)。
备注:下面均是个人拙见,仅供参考。
一、评价统计量的三大标准
我们知道点估计一般主要包含:矩估计和极大似然估计。
矩估计主要思想是:如果总体中有 K个未知参数,可以用前 K阶样本矩估计相应的前k阶总体矩,然后利用未知参数与总体矩的函数关系,求出参数的估计量;
极大似然估计主要思想是已经发生的样本出现概率最大化。
对于已经获取的多个统计量,如何评价其参数估计是好还是坏,该如何选择呢?这里就要用到评价统计量的三大标准:无偏性、有效性、相合性(或一致性)。
下面简单介绍三大性质的主要内容:
- 无偏性
在统计学上称没有系统性偏差的性质为无偏性。严格数学定义为:
设 θ ^ = θ ^ ( x 1 , x 2 , … , x n ) \hat\theta=\hat\theta(x_1, x_2, \dots, x_n) θ^=θ^(x1,x2,…,xn)为母体 X X X的概率密度函数 { f ( x , θ ) : θ ∈ Θ } \{f(x, \theta):\theta\in\Theta\} {f(x,θ):θ∈Θ}的未知参数 θ \theta θ的一个估计量。若对于一切 θ ∈ Θ \theta\in\Theta θ∈Θ,关系式:
E θ [ θ ^ ( x 1 , x 2 , … , x n ) ] = θ E_\theta[\hat\theta(x_1, x_2, \dots, x_n)] = \theta Eθ[θ^(x1,x2,…,xn)]=θ
成立,则称 θ ^ ( x 1 , x 2 , … , x n ) \hat\theta(x_1, x_2, \dots, x_n) θ^(x1,x2,…,xn)为 θ \theta θ的无偏估计.
备注:这里角标 θ \theta θ不是对其求期望,可以理解为此处 θ \theta θ为常量,求完期望后,只剩含 θ \theta θ的数值. - 有效性
我们知道,方差是用来形容随机变量落在其均值的领域内的离散/集中程度的一个度量,一个好的统计量不仅应该是待估计参数 θ \theta θ的无偏估计,而且还应该有尽可能小的方差。因此,哪一个统计量的方差小,那么哪一个统计量较好。严格数学定义为:
若参数 θ \theta θ有两个无偏估计 θ ^ 1 \hat\theta_1 θ^1和 θ ^ 2 \hat\theta_2 θ^2,他们的方差对一切 θ ∈ Θ \theta\in\Theta θ∈Θ有 D ( θ ^ 1 ) ≤ D ( θ ^ 2 ) D(\hat\theta_1)\leq D(\hat\theta_2) D(θ^1)≤D(θ^2),称估计 θ ^ 1 \hat\theta_1 θ^1比估计 θ ^ 2 \hat\theta_2 θ^2有效. - 相合性
简单来说,随着样本量增大,估计值与真值很接近的可能性非常大,即估计值与真值之差小于任何数 ϵ ( > 0 ) \epsilon(>0) ϵ(>0)依概率趋于1. 严格数学定义为:
设母体 X X X具有概率密度函数 f ( x ; θ ) , θ ∈ Θ f(x; \theta), \theta\in\Theta f(x;θ),θ∈Θ为未知参数. θ ^ n = θ ^ n ( x 1 , x 2 , … , x n ) \hat\theta_n=\hat\theta_n(x_1, x_2, \dots, x_n) θ^n=θ^n(x1,x2,…,xn)为 θ \theta θ的一个估计量, n n n为子样容量. 若为任意一个 ϵ > 0 \epsilon>0 ϵ>0,有
lim n → + ∞ P ( ∣ θ ^ n − θ ∣ ≥ ϵ ) = 0 \lim_{n \to +\infty}P(|\hat\theta_n - \theta|\geq\epsilon)=0 n→+∞limP(∣θ^n−θ∣≥ϵ)=0
则称 θ ^ n \hat\theta_n θ^n为参数 θ \theta θ的相合估计.
本文我们主要想讨论Fisher信息量及Cramer-Rao不等式,这里就与上面提到的有效性有关系。 提到有效性,我们自然有这样一个想法,就是希望估计量的方差愈小愈好. 那么能够小到什么程度呢?也就是有没有下界?什么条件下方差下界存在?下面就讨论建立一个方差下界的Cramer-Rao不等式.
二、Cramer-Rao不等式
2.1 Cramer-Rao不等式(数学定义)
设
x
1
,
x
2
,
…
,
x
n
x_1, x_2, \dots,x_n
x1,x2,…,xn为取自具有概率密度函数
f
(
x
;
θ
)
,
θ
∈
Θ
=
θ
:
a
<
θ
<
b
f(x;\theta), \theta\in\Theta={\theta: a<\theta<b}
f(x;θ),θ∈Θ=θ:a<θ<b的母体
X
X
X的一个子集,
a
,
b
a, b
a,b为已知常数,
a
a
a可以取
−
∞
-\infty
−∞,
b
b
b可以取
+
∞
+\infty
+∞. 又
η
=
μ
(
x
1
,
x
2
,
…
,
x
n
)
\eta=\mu(x_1, x_2, \dots,x_n)
η=μ(x1,x2,…,xn)是
g
(
θ
)
g(\theta)
g(θ)的一个无偏估计,且满足正则条件:
(1) 集合
{
x
:
f
(
x
;
θ
)
>
0
}
\{x: f(x;\theta)>0\}
{x:f(x;θ)>0}与
θ
\theta
θ无关;
(2)
g
′
(
θ
)
g^{'}(\theta)
g′(θ)与
∂
f
(
x
;
θ
)
∂
θ
\frac{\partial f(x;\theta)}{\partial\theta}
∂θ∂f(x;θ)存在,且对一切
θ
∈
Θ
\theta\in\Theta
θ∈Θ,
∂
∂
θ
∫
f
(
x
;
θ
)
d
x
=
∫
∂
f
(
x
;
θ
)
∂
θ
d
x
\frac{\partial}{\partial\theta}\int f(x;\theta)dx = \int\frac{\partial f(x; \theta)}{\partial\theta}dx
∂θ∂∫f(x;θ)dx=∫∂θ∂f(x;θ)dx
∂
∂
θ
∫
∫
⋯
∫
μ
(
x
1
,
x
2
,
…
,
x
n
)
f
(
x
1
;
θ
)
f
(
x
2
;
θ
)
…
f
(
x
n
;
θ
)
d
x
1
d
x
2
…
d
x
n
=
∫
∫
⋯
∫
μ
(
x
1
,
x
2
,
…
,
x
n
)
∂
∂
θ
[
∏
i
=
1
n
f
(
x
i
;
θ
)
]
d
x
1
d
x
2
…
d
x
n
\frac{\partial}{\partial\theta}\int\int\dots\int \mu(x_1, x_2, \dots,x_n)f(x_1;\theta)f(x_2;\theta)\dots f(x_n;\theta)dx_1dx_2\dots dx_n = \\ \int\int\dots\int\mu(x_1, x_2, \dots,x_n)\frac{\partial}{\partial\theta}[\prod_{i=1}^nf(x_i;\theta)]dx_1dx_2\dots dx_n
∂θ∂∫∫⋯∫μ(x1,x2,…,xn)f(x1;θ)f(x2;θ)…f(xn;θ)dx1dx2…dxn=∫∫⋯∫μ(x1,x2,…,xn)∂θ∂[i=1∏nf(xi;θ)]dx1dx2…dxn
(3) 令
I
(
θ
)
=
E
θ
{
(
∂
l
n
f
(
x
;
θ
)
∂
θ
)
2
}
I(\theta) = E_\theta\{(\frac{\partial lnf(x;\theta)}{ \partial\theta})^2\}
I(θ)=Eθ{(∂θ∂lnf(x;θ))2}
成为Fisher信息量,则
D
θ
η
≥
[
g
′
(
θ
)
]
2
n
I
(
θ
)
D_\theta\eta\geq\frac{[g^{'}(\theta)]^2}{nI(\theta)}
Dθη≥nI(θ)[g′(θ)]2
且其等式成立的充要条件为存在一个不依赖于
x
1
,
x
2
,
…
,
x
n
x_1,x_2,\dots,x_n
x1,x2,…,xn,但可能依赖于
θ
\theta
θ的
K
K
K,使得等式
∑
i
=
1
n
∂
l
n
f
(
x
i
;
θ
)
∂
θ
=
K
(
η
−
g
(
θ
)
)
\sum_{i=1}^{n}\frac{\partial lnf(x_i;\theta)}{ \partial\theta} = K(\eta - g(\theta))
i=1∑n∂θ∂lnf(xi;θ)=K(η−g(θ))
以概率1成立.
特别地当
g
(
θ
)
=
θ
g(\theta)=\theta
g(θ)=θ时,不等式化为
D
θ
η
≥
1
n
I
(
θ
)
D_\theta\eta\geq\frac{1}{nI(\theta)}
Dθη≥nI(θ)1
证明:
后续待补充
2.2 证明:信息量等于二阶导的期望
这个重要性质,其实是为了方便计算信息量
I
(
θ
)
]
I(\theta)]
I(θ)]而证明出来的。数学定义为:
若
∂
∂
θ
∫
∂
f
(
x
;
θ
)
∂
θ
d
x
=
∫
∂
2
f
(
x
;
θ
)
∂
θ
2
d
x
\frac{\partial}{\partial\theta}\int\frac{\partial f(x;\theta)}{\partial\theta}dx = \int\frac{\partial^2 f(x;\theta)}{\partial\theta^2}dx
∂θ∂∫∂θ∂f(x;θ)dx=∫∂θ2∂2f(x;θ)dx
则:
I
(
θ
)
=
−
E
[
∂
2
l
n
(
f
(
x
;
θ
)
∂
θ
2
]
I(\theta) = -E[\frac{\partial^2 ln(f(x;\theta)}{\partial \theta^2}]
I(θ)=−E[∂θ2∂2ln(f(x;θ)]
证明:
E
[
∂
l
n
(
f
(
x
;
θ
)
∂
θ
]
=
∫
1
f
(
x
;
θ
)
∗
∂
f
(
x
;
θ
)
∂
θ
∗
f
(
x
;
θ
)
d
x
=
∫
∂
f
(
x
;
θ
)
∂
θ
d
x
=
∂
∂
θ
∫
f
(
x
;
θ
)
d
x
‾
=
∂
∂
θ
∗
1
=
0
‾
\begin{aligned} E[\frac{\partial ln(f(x;\theta)}{\partial \theta}] =& \int\frac{1}{f(x;\theta)}*\frac{\partial f(x;\theta)}{\partial\theta}*f(x;\theta)dx\\ =& \int\frac{\partial f(x;\theta)}{\partial\theta}dx\\ =& \underline{\frac{\partial}{\partial\theta}\int f(x;\theta)dx}\\ =& \frac{\partial}{\partial\theta}*1 \\ =& \underline{0} \end{aligned}
E[∂θ∂ln(f(x;θ)]=====∫f(x;θ)1∗∂θ∂f(x;θ)∗f(x;θ)dx∫∂θ∂f(x;θ)dx∂θ∂∫f(x;θ)dx∂θ∂∗10
因此有:
∫
∂
2
f
(
x
;
θ
)
∂
θ
2
d
x
=
∂
∂
θ
∫
∂
f
(
x
;
θ
)
∂
θ
d
x
=
0
\int\frac{\partial^2 f(x;\theta)}{\partial\theta^2}dx = \frac{\partial}{\partial\theta}\int\frac{\partial f(x;\theta)}{\partial\theta}dx = 0
∫∂θ2∂2f(x;θ)dx=∂θ∂∫∂θ∂f(x;θ)dx=0
由方差定义
V
a
r
(
X
)
=
E
X
2
−
(
E
X
)
2
Var(X)=EX^2 - (EX)^2
Var(X)=EX2−(EX)2 及
E
[
∂
l
n
(
f
(
x
;
θ
)
∂
θ
]
=
0
E[\frac{\partial ln(f(x;\theta)}{\partial \theta}]=0
E[∂θ∂ln(f(x;θ)]=0知:
V
a
r
[
∂
l
n
(
f
(
x
;
θ
)
∂
θ
]
=
E
[
(
∂
l
n
(
f
(
x
;
θ
)
∂
θ
)
2
]
−
{
E
[
∂
l
n
(
f
(
x
;
θ
)
∂
θ
]
}
2
=
E
[
(
∂
l
n
(
f
(
x
;
θ
)
∂
θ
)
2
]
\begin{aligned} Var[\frac{\partial ln(f(x;\theta)}{\partial \theta}] =& E[(\frac{\partial ln(f(x;\theta)}{\partial \theta})^2] - \{E[\frac{\partial ln(f(x;\theta)}{\partial \theta}] \}^2 \\ =& E[(\frac{\partial ln(f(x;\theta)}{\partial \theta})^2] \end{aligned}
Var[∂θ∂ln(f(x;θ)]==E[(∂θ∂ln(f(x;θ))2]−{E[∂θ∂ln(f(x;θ)]}2E[(∂θ∂ln(f(x;θ))2]
又
E
[
∂
2
l
n
(
f
(
x
;
θ
)
∂
θ
2
]
=
∫
∂
∂
θ
(
∂
l
n
(
f
(
x
;
θ
)
∂
θ
)
f
(
x
;
θ
)
d
x
=
∫
∂
∂
θ
(
∂
f
(
x
;
θ
)
∂
θ
f
(
x
;
θ
)
)
f
(
x
;
θ
)
d
x
=
∫
∂
2
f
(
x
;
θ
)
∂
θ
2
∗
f
(
x
;
θ
)
−
∂
f
(
x
;
θ
)
∂
θ
∗
∂
f
(
x
;
θ
)
∂
θ
f
(
x
;
θ
)
2
f
(
x
;
θ
)
d
x
=
∫
∂
2
f
(
x
;
θ
)
∂
θ
2
d
x
‾
−
∫
(
∂
f
(
x
;
θ
)
∂
θ
f
(
x
;
θ
)
)
2
f
(
x
;
θ
)
d
x
=
0
−
∫
(
∂
l
n
f
(
x
;
θ
)
∂
θ
)
2
f
(
x
;
θ
)
d
x
=
−
E
(
∂
l
n
f
(
x
;
θ
)
∂
θ
)
2
\begin{aligned} E[\frac{\partial^2 ln(f(x;\theta)}{\partial \theta^2}] &= \int\frac{\partial}{\partial\theta}(\frac{\partial ln(f(x;\theta)}{\partial \theta})f(x;\theta)dx \\ &= \int\frac{\partial}{\partial\theta} \Big( \frac{ \frac{\partial f(x;\theta)}{\partial\theta} }{f(x;\theta)} \Big) f(x;\theta)dx \\ &= \int\frac{\frac{\partial^2f(x;\theta)}{\partial\theta^2}*f(x;\theta) - \frac{\partial f(x;\theta)}{\partial\theta} *\frac{\partial f(x;\theta)}{\partial\theta}}{f(x;\theta)^2}f(x;\theta)dx \\ &= \underline{\int\frac{\partial^2f(x;\theta)}{\partial\theta^2}dx} - \int\Big(\frac{\frac{\partial f(x;\theta)}{\partial\theta}}{f(x;\theta)}\Big)^2f(x;\theta)dx \\ &= 0 - \int\Big(\frac{\partial lnf(x;\theta)}{\partial\theta}\Big)^2f(x;\theta)dx \\ &= - E\Big(\frac{\partial lnf(x;\theta)}{\partial\theta}\Big)^2 \end{aligned}
E[∂θ2∂2ln(f(x;θ)]=∫∂θ∂(∂θ∂ln(f(x;θ))f(x;θ)dx=∫∂θ∂(f(x;θ)∂θ∂f(x;θ))f(x;θ)dx=∫f(x;θ)2∂θ2∂2f(x;θ)∗f(x;θ)−∂θ∂f(x;θ)∗∂θ∂f(x;θ)f(x;θ)dx=∫∂θ2∂2f(x;θ)dx−∫(f(x;θ)∂θ∂f(x;θ))2f(x;θ)dx=0−∫(∂θ∂lnf(x;θ))2f(x;θ)dx=−E(∂θ∂lnf(x;θ))2
再结合
I
(
θ
)
I(\theta)
I(θ)定义,得:
I
(
θ
)
=
E
(
∂
l
n
f
(
x
;
θ
)
∂
θ
)
2
=
−
E
[
∂
2
l
n
(
f
(
x
;
θ
)
∂
θ
2
]
=
−
V
a
r
[
∂
l
n
(
f
(
x
;
θ
)
∂
θ
]
I(\theta) = E\Big(\frac{\partial lnf(x;\theta)}{\partial\theta}\Big)^2 = -E[\frac{\partial^2 ln(f(x;\theta)}{\partial \theta^2}] = -Var[\frac{\partial ln(f(x;\theta)}{\partial \theta}]
I(θ)=E(∂θ∂lnf(x;θ))2=−E[∂θ2∂2ln(f(x;θ)]=−Var[∂θ∂ln(f(x;θ)]
2.3 推导中有意思的点
-
信息量的计算方式
根据上述性质,信息量的计算可以借助概率密度函数的对数二阶导获取. -
一阶导与二阶导的巧妙
一阶导数的平方的期望 等于 二阶导的期望.
2.4 Cramer-Rao应用案例
假设
X
X
X ~
B
(
1
,
p
)
B(1,p)
B(1,p),即X服从两点分布. 其概率密度函数为:
f
(
x
;
p
)
=
{
p
x
(
1
−
p
)
1
−
x
,
x
=
0
,
1
0
,
其
它
0
<
p
<
1
f(x;p)=\left\{ \begin{aligned} & p^x(1-p)^{1-x}, \ x=0,1 \\ & 0, \ \ 其它\\ \end{aligned} \right. \ \ \ 0<p<1
f(x;p)={px(1−p)1−x, x=0,10, 其它 0<p<1
于是:
∂
l
n
f
(
x
;
p
)
∂
p
=
∂
l
n
[
x
p
(
1
−
x
)
p
]
∂
p
=
x
p
−
x
1
−
p
\frac{\partial lnf(x;p)}{\partial p} = \frac{\partial ln[x^p(1-x)^p]}{\partial p} = \frac{x}{p} - \frac{x}{1-p}
∂p∂lnf(x;p)=∂p∂ln[xp(1−x)p]=px−1−px
∂
2
l
n
f
(
x
;
p
)
∂
p
2
=
∂
[
x
p
−
1
−
x
1
−
p
]
∂
p
=
−
x
p
2
−
x
(
1
−
p
)
2
\frac{\partial^2 lnf(x;p)}{\partial p^2} = \frac{\partial [\frac{x}{p} - \frac{1-x}{1-p}]}{\partial p} =- \frac{x}{p^2} - \frac{x}{(1-p)^2}
∂p2∂2lnf(x;p)=∂p∂[px−1−p1−x]=−p2x−(1−p)2x
又因:E(X)=p
I
(
p
)
=
E
[
−
∂
2
l
n
f
(
x
;
p
)
∂
p
2
]
=
E
[
x
p
2
+
x
(
1
−
p
)
2
]
=
1
p
(
1
−
p
)
I(p) = E[-\frac{\partial^2 lnf(x;p)}{\partial p^2}] = E[ \frac{x}{p^2} + \frac{x}{(1-p)^2}]=\frac{1}{p(1-p)}
I(p)=E[−∂p2∂2lnf(x;p)]=E[p2x+(1−p)2x]=p(1−p)1
已知
X
X
X的无偏估计为:
X
ˉ
\bar{X}
Xˉ 且其方差为:
p
(
1
−
p
)
n
\frac{p(1-p)}{n}
np(1−p)
又
n
I
(
p
)
=
p
(
1
−
p
)
n
=
V
a
r
(
X
ˉ
)
nI(p) = \frac{p(1-p)}{n} = Var(\bar{X})
nI(p)=np(1−p)=Var(Xˉ)
从而
X
ˉ
\bar{X}
Xˉ的方差达到了Cramer-Rao下界.