1. 估计量的衡量标准
对于参数估计问题,目前存在着很多估计算法。那么如何去衡量一个估计器(estimator, 也称估计量或估计算法)的性能,我们主要考量以下三个方面
- 无偏性(unbiased)。对于参数估计问题,设未知参数 θ \theta θ,估计器模型 θ ^ \hat{\theta} θ^。则有 E [ θ ^ ] = θ \mathbb{E}[\hat{\theta}]=\theta E[θ^]=θ。对于估计对象为随机变量,则有 E [ θ ^ ] = E [ θ ] \mathbb{E}[\hat{\theta}]=\mathbb{E}[\theta] E[θ^]=E[θ]。我们称满足这个条件的估计量为无偏估计量。
- 有效性(availability)。有效性刻画估计量到真实值的偏离程度, D ( θ ^ ) = E [ ( θ ^ − E [ θ ^ ] ) 2 ] D(\hat{\theta})=\mathbb{E}[(\hat{\theta}-\mathbb{E}[\hat{\theta}])^2] D(θ^)=E[(θ^−E[θ^])2],即若存在多种无偏估计器,我们称估计量方差最小的估计器是有效的。
- 一致性(consistency)。设 θ ^ \hat{\theta} θ^为未知参数 θ \theta θ的估计量,若当样本数 N → ∞ N\rightarrow \infty N→∞时,对于任意 ϵ > 0 \epsilon>0 ϵ>0,有 lim N → ∞ P { ∣ θ ^ − θ ∣ < ϵ } = 1 \lim\limits_{N\rightarrow \infty} P\left\{{|\hat{\theta}-\theta|<\epsilon}\right\}=1 N→∞limP{∣θ^−θ∣<ϵ}=1。我们称 θ ^ \hat{\theta} θ^与 θ \theta θ是一致的。一致性所体现的是,当样本总数逐渐增加时,估计量逐渐收敛于真实值。
基于这三点考量,那么很自然我们会问,如何衡量一个无偏估计器是否是有效的。统计信号处理理论中的克拉美罗下界(Cramer-Rao Lower Bound,CRLB)就是衡量一个无偏估计器的有力工具。
2. 克拉美-罗下界(Scale Parameter 标量参数)
对于估计参数
θ
\theta
θ为标量时,假定PDF满足**“正则”**条件
E
[
∂
ln
p
(
x
;
θ
)
∂
θ
]
=
0
(
for any
θ
)
\mathbb{E}\left[{\frac{\partial \ln p(\boldsymbol{x};\theta)}{\partial \theta}}\right]=0\quad (\ \text{for any }\theta \ )
E[∂θ∂lnp(x;θ)]=0( for any θ )
其中数学期望对
p
(
x
;
θ
)
p(\boldsymbol{x};\theta)
p(x;θ)取。那么无偏估计量
θ
^
\hat{\theta}
θ^的方差必然满足
D
(
θ
^
)
≥
1
−
E
[
∂
2
ln
p
(
x
;
θ
)
∂
θ
2
]
=
1
E
[
(
∂
ln
p
(
x
;
θ
)
∂
θ
)
2
]
D(\hat{\theta}) \geq \frac{1}{-\mathbb{E}\left[{ \frac{\partial ^2\ln p(\boldsymbol{x};\theta)}{\partial \theta^2}}\right]}=\frac{1}{\mathbb{E}\left[{ \left(\frac{\partial \ln p(\boldsymbol{x};\theta)}{\partial \theta}\right)^2}\right]}
D(θ^)≥−E[∂θ2∂2lnp(x;θ)]1=E[(∂θ∂lnp(x;θ))2]1
其中导数是在
θ
\theta
θ的真实值处求,数学期望是对
p
(
x
;
θ
)
p(\boldsymbol{x};\theta)
p(x;θ)取。因此,我们可以说一个无偏估计量
g
(
x
)
g(\boldsymbol{x})
g(x)达到CRLB,当且仅当,该估计量满足
∂
ln
p
(
x
;
θ
)
∂
θ
=
I
(
θ
)
(
g
(
x
)
−
θ
)
\frac{\partial \ln p(\boldsymbol{x};\theta)}{\partial \theta} =\mathbf{I}(\theta)(g(\boldsymbol{x})-\theta)
∂θ∂lnp(x;θ)=I(θ)(g(x)−θ)
其中,
I
(
θ
)
=
−
E
[
∂
2
ln
p
(
x
;
θ
)
∂
θ
2
]
\mathbf{I}(\theta)=-\mathbb{E}\left[{ \frac{\partial ^2\ln p(\boldsymbol{x};\theta)}{\partial \theta^2}}\right]
I(θ)=−E[∂θ2∂2lnp(x;θ)],称为Fisher information。证明见附录A。
Remarks: CRLB是衡量一个无偏估计器是否有效的重要工具,也就是说,给定一个无偏估计器,我们可以利用克拉美-罗下界去判断这个估计器是否是最优的。
3. Example:线性高斯模型(Linear Gaussian model)
x
=
h
θ
+
w
,
w
∼
N
(
0
,
C
w
)
\boldsymbol{x}=\boldsymbol{h}\theta+\boldsymbol{w}, \quad \boldsymbol{w}\sim \mathcal{N}(\boldsymbol{0},\boldsymbol{C}_{\boldsymbol{w}})
x=hθ+w,w∼N(0,Cw)
其中
θ
\theta
θ是未知参数,
x
∈
R
p
\boldsymbol{x}\in \mathbb{R}^p
x∈Rp是观测值(observed signal),
w
\boldsymbol{w}
w是均值为
0
\boldsymbol{0}
0,协方差矩阵为
C
w
\boldsymbol{C}_{\boldsymbol{w}}
Cw的高斯噪声。
我们考虑如下估计器
θ
^
=
(
h
T
C
w
−
1
h
)
−
1
h
T
C
w
−
1
x
\hat{\theta}=(\boldsymbol{h}^T\boldsymbol{C}_{\boldsymbol{w}}^{-1}\boldsymbol{h})^{-1}\boldsymbol{h}^T\boldsymbol{C}_{\boldsymbol{w}}^{-1}\boldsymbol{x}
θ^=(hTCw−1h)−1hTCw−1x
对于该模型,其似然函数
p
(
x
;
θ
)
p(\boldsymbol{x};\theta)
p(x;θ)为
p
(
x
;
θ
)
=
1
(
2
π
)
p
/
2
∣
C
w
∣
1
/
2
exp
[
−
1
2
(
x
−
h
θ
)
T
C
w
−
1
(
x
−
h
θ
)
]
p(\boldsymbol{x};\theta)=\frac{1}{(2\pi)^{p/2}|\boldsymbol{C}_{\boldsymbol{w}}|^{1/2}} \exp \left[{-\frac{1}{2}(\boldsymbol{x}-\boldsymbol{h}\theta)^T\boldsymbol{C}_{\boldsymbol{w}}^{-1}(\boldsymbol{x}-\boldsymbol{h}\theta)}\right]
p(x;θ)=(2π)p/2∣Cw∣1/21exp[−21(x−hθ)TCw−1(x−hθ)]
因此
-
无偏性
E [ θ ^ ] = ∫ x θ ^ p ( x ; θ ) d x \mathbb{E}[\hat{\theta}]=\int_{\boldsymbol{x}} \hat{\theta} p(\boldsymbol{x};\theta)\text{d}\boldsymbol{x} E[θ^]=∫xθ^p(x;θ)dx
我们可以将 p ( x ; θ ) p(\boldsymbol{x};\theta) p(x;θ)看作为自变量为 x \boldsymbol{x} x均值为 h θ \boldsymbol{h}\theta hθ,协方差矩阵为 C w \boldsymbol{C}_{\boldsymbol{w}} Cw的高斯PDF,即 ∫ x x p ( x ; θ ) d x = h θ \int_{\boldsymbol{x}}\boldsymbol{x}p(\boldsymbol{x};\theta)\text{d}\boldsymbol{x}=\boldsymbol{h}\theta ∫xxp(x;θ)dx=hθ。因此 E [ θ ^ ] = ( h T C w − 1 h ) − 1 h T C w − 1 h θ = θ \mathbb{E}[\hat{\theta}]=(\boldsymbol{h}^T\boldsymbol{C}_{\boldsymbol{w}}^{-1}\boldsymbol{h})^{-1}\boldsymbol{h}^T\boldsymbol{C}_{\boldsymbol{w}}^{-1}\boldsymbol{h}\theta=\theta E[θ^]=(hTCw−1h)−1hTCw−1hθ=θ,即 θ ^ \hat{\theta} θ^为无偏估计量。 -
有效性
∂ ln p ( x ; θ ) ∂ θ = ( x − h θ ) T C w − 1 h \frac{\partial \ln p(\boldsymbol{x};\theta)}{\partial \theta}=(\boldsymbol{x}-\boldsymbol{h}\theta)^T\boldsymbol{C}_{\boldsymbol{w}}^{-1}\boldsymbol{h} ∂θ∂lnp(x;θ)=(x−hθ)TCw−1h ∂ 2 ln p ( x ; θ ) ∂ θ 2 = − h T C w − 1 h \frac{\partial^2 \ln p(\boldsymbol{x};\theta)}{\partial \theta^2}=-\boldsymbol{h}^T\boldsymbol{C}_{\boldsymbol{w}}^{-1}\boldsymbol{h} ∂θ2∂2lnp(x;θ)=−hTCw−1h
关于矩阵求导不太熟悉的朋友可以看下这个网站:https://en.wikipedia.org/wiki/Matrix_calculus。
基于上述表述,该系统模型的CRLB为
− 1 − E [ ∂ 2 ln p ( x ; θ ) ∂ θ 2 ] = 1 h T C w − 1 h -\frac{1}{-\mathbb{E}\left[{ \frac{\partial ^2\ln p(\boldsymbol{x};\theta)}{\partial \theta^2}}\right]}=\frac{1}{\boldsymbol{h}^T\boldsymbol{C}_{\boldsymbol{w}}^{-1}\boldsymbol{h}} −−E[∂θ2∂2lnp(x;θ)]1=hTCw−1h1
而估计器 θ ^ \hat{\theta} θ^的方差为
D ( θ ^ ) = ( ( h T C w − 1 h ) − 1 h T C w − 1 ) C w ( ( h T C w − 1 h ) − 1 h T C w − 1 ) T = ( h T C w − 1 h ) − 1 D(\hat{\theta})=\left({(\boldsymbol{h}^T\boldsymbol{C}_{\boldsymbol{w}}^{-1}\boldsymbol{h})^{-1}\boldsymbol{h}^T\boldsymbol{C}_{\boldsymbol{w}}^{-1}}\right) \boldsymbol{C}_{\boldsymbol{w}} \left({(\boldsymbol{h}^T\boldsymbol{C}_{\boldsymbol{w}}^{-1}\boldsymbol{h})^{-1}\boldsymbol{h}^T\boldsymbol{C}_{\boldsymbol{w}}^{-1}}\right)^T=(\boldsymbol{h}^T\boldsymbol{C}_{\boldsymbol{w}}^{-1}\boldsymbol{h})^{-1} D(θ^)=((hTCw−1h)−1hTCw−1)Cw((hTCw−1h)−1hTCw−1)T=(hTCw−1h)−1
由于 h T C w − 1 h \boldsymbol{h}^T\boldsymbol{C}_{\boldsymbol{w}}^{-1}\boldsymbol{h} hTCw−1h是一维的,有 ( h T C w − 1 h ) − 1 = 1 h T C w − 1 h (\boldsymbol{h}^T\boldsymbol{C}_{\boldsymbol{w}}^{-1}\boldsymbol{h})^{-1}=\frac{1}{\boldsymbol{h}^T\boldsymbol{C}_{\boldsymbol{w}}^{-1}\boldsymbol{h}} (hTCw−1h)−1=hTCw−1h1,因此,该估计量是有效的,即该无偏估计量 θ \theta θ的方差可以达到CRLB。 -
一致性
将系统模型 x = h θ + w \boldsymbol{x}=\boldsymbol{h}\theta+\boldsymbol{w} x=hθ+w代入估计器中,有
θ ^ = ( h T C w − 1 h ) − 1 h T C w − 1 ( h θ + w ) = θ + ( h T C w − 1 h ) − 1 h T C w − 1 w \hat{\theta} =(\boldsymbol{h}^T\boldsymbol{C}_{\boldsymbol{w}}^{-1}\boldsymbol{h})^{-1}\boldsymbol{h}^T\boldsymbol{C}_{\boldsymbol{w}}^{-1}(\boldsymbol{h}\theta+\boldsymbol{w})\\ =\theta+(\boldsymbol{h}^T\boldsymbol{C}_{\boldsymbol{w}}^{-1}\boldsymbol{h})^{-1}\boldsymbol{h}^T\boldsymbol{C}_{\boldsymbol{w}}^{-1}\boldsymbol{w} θ^=(hTCw−1h)−1hTCw−1(hθ+w)=θ+(hTCw−1h)−1hTCw−1w
若假设噪声能量一定,即 C w \boldsymbol{C}_{\boldsymbol{w}} Cw元素值固定,随着观测样本 p → ∞ p\rightarrow\infty p→∞,则噪声的方差
D ( ( h T C w − 1 h ) − 1 h T C w − 1 w ) = 1 h T c w − 1 h D((\boldsymbol{h}^T\boldsymbol{C}_{\boldsymbol{w}}^{-1}\boldsymbol{h})^{-1}\boldsymbol{h}^T\boldsymbol{C}_{\boldsymbol{w}}^{-1}\boldsymbol{w})=\frac{1}{\boldsymbol{h}^T\boldsymbol{c}_{\boldsymbol{w}}^{-1}\boldsymbol{h}} D((hTCw−1h)−1hTCw−1w)=hTcw−1h1
从公式可以看出,假设噪声 w \boldsymbol{w} w的每个元素具有相同的方差,则必然 lim p → ∞ h T c w − 1 h → ∞ \lim\limits_{p\rightarrow \infty}\boldsymbol{h}^T\boldsymbol{c}_{\boldsymbol{w}}^{-1}\boldsymbol{h}\rightarrow \infty p→∞limhTcw−1h→∞。因此,当 p → ∞ p\rightarrow \infty p→∞时,我们可以将估计量 θ ^ \hat{\theta} θ^看作
θ ^ = θ + n , n ∼ N ( 0 , ( h T C w − 1 h ) − 1 ) and lim p → ∞ h T c w − 1 h → ∞ \hat{\theta}=\theta+n,\quad n\sim\mathcal{N}(0,(\boldsymbol{h}^T\boldsymbol{C}_\boldsymbol{w}^{-1}\boldsymbol{h})^{-1}) \ \ \text{and} \ \lim\limits_{p\rightarrow \infty}\boldsymbol{h}^T\boldsymbol{c}_{\boldsymbol{w}}^{-1}\boldsymbol{h}\rightarrow \infty θ^=θ+n,n∼N(0,(hTCw−1h)−1) and p→∞limhTcw−1h→∞
因此,对于任意 ϵ > 0 \epsilon>0 ϵ>0,有
lim N → ∞ P { ∣ θ ^ − θ ∣ < ϵ } = 1 \lim\limits_{N\rightarrow \infty} P\left\{{|\hat{\theta}-\theta|<\epsilon}\right\}=1 N→∞limP{∣θ^−θ∣<ϵ}=1
即,该估计量满足一致性。
4. CRLB证明
由于
θ
^
\hat{\theta}
θ^是无偏估计,即
∫
x
(
θ
^
−
θ
)
p
(
x
;
θ
)
d
x
=
0
⇒
∫
θ
^
p
(
x
;
θ
)
d
x
=
θ
\int_{\boldsymbol{x}} (\hat{\theta}-\theta)p(\boldsymbol{x};\theta)\text{d}\boldsymbol{x}=0\quad \Rightarrow \quad \int \hat{\theta}p(\boldsymbol{x};\theta)\text{d}\boldsymbol{x}=\theta
∫x(θ^−θ)p(x;θ)dx=0⇒∫θ^p(x;θ)dx=θ
注意,估计器
θ
^
\hat{\theta}
θ^是关于观测量
x
\boldsymbol{x}
x的函数。上式等式两边对
θ
\theta
θ求偏导有
∫
θ
^
∂
p
(
x
;
θ
)
∂
θ
d
x
=
1
⇒
∫
θ
^
∂
ln
p
(
x
;
θ
)
∂
θ
p
(
x
;
θ
)
d
x
=
1
−
−
−
(
∗
1
)
\int \hat{\theta}\frac{\partial p(\boldsymbol{x};\theta)}{\partial \theta}\text{d}x=1\\ \qquad \qquad \qquad \qquad \qquad \Rightarrow \int \hat{\theta}\frac{\partial \ln p(\boldsymbol{x};\theta)}{\partial \theta}p(\boldsymbol{x};\theta)\text{d}x=1 \qquad ---(*1)
∫θ^∂θ∂p(x;θ)dx=1⇒∫θ^∂θ∂lnp(x;θ)p(x;θ)dx=1−−−(∗1)
由正则条件
E
[
∂
ln
p
(
x
;
θ
)
∂
θ
]
=
0
\mathbb{E}\left[\frac{\partial \ln p(\boldsymbol{x};\theta)}{\partial \theta}\right]=0
E[∂θ∂lnp(x;θ)]=0,即
∫
∂
ln
p
(
x
;
θ
)
∂
θ
p
(
x
;
θ
)
d
x
=
0
\int \frac{\partial \ln p(\boldsymbol{x};\theta)}{\partial \theta} p(\boldsymbol{x};\theta)\text{d}\boldsymbol{x}=0
∫∂θ∂lnp(x;θ)p(x;θ)dx=0
有
θ
∫
∂
ln
p
(
x
;
θ
)
∂
θ
p
(
x
;
θ
)
d
x
=
0
⇒
∫
θ
∂
ln
p
(
x
;
θ
)
∂
θ
p
(
x
;
θ
)
d
x
=
0
−
−
−
(
∗
2
)
\theta \int \frac{\partial \ln p(\boldsymbol{x};\theta)}{\partial \theta} p(\boldsymbol{x};\theta)\text{d}\boldsymbol{x}=0\\ \qquad \qquad \Rightarrow \int \theta \frac{\partial \ln p(\boldsymbol{x};\theta)}{\partial \theta} p(\boldsymbol{x};\theta)\text{d}\boldsymbol{x}=0---(*2)
θ∫∂θ∂lnp(x;θ)p(x;θ)dx=0⇒∫θ∂θ∂lnp(x;θ)p(x;θ)dx=0−−−(∗2)
合并(*1)与(*2),有
∫
(
θ
^
−
θ
)
∂
ln
p
(
x
;
θ
)
∂
θ
p
(
x
;
θ
)
d
x
=
1
⇒
∫
(
θ
^
−
θ
)
p
(
x
;
θ
)
∂
ln
p
(
x
;
θ
)
∂
θ
p
(
x
;
θ
)
d
x
=
1
\ \ \ \ \int (\hat{\theta}-\theta)\frac{\partial \ln p(\boldsymbol{x};\theta)}{\partial \theta}p(\boldsymbol{x};\theta)\text{d}\boldsymbol{x}=1\\ \qquad \qquad \ \ \Rightarrow \int (\hat{\theta}-\theta)\sqrt{p(\boldsymbol{x};\theta)}\frac{\partial \ln p(\boldsymbol{x};\theta)}{\partial \theta}\sqrt{p(\boldsymbol{x};\theta)}\text{d}\boldsymbol{x}=1
∫(θ^−θ)∂θ∂lnp(x;θ)p(x;θ)dx=1 ⇒∫(θ^−θ)p(x;θ)∂θ∂lnp(x;θ)p(x;θ)dx=1
由于柯西-施瓦茨不等式
∫
f
2
(
x
)
d
x
∫
g
2
(
x
)
d
x
≥
(
∫
f
(
x
)
g
(
x
)
d
x
)
2
\int f^2(x)\text{d}x \int g^2(x)\text{d}x \geq\left({\int f(x)g(x)\text{d}x}\right)^2
∫f2(x)dx∫g2(x)dx≥(∫f(x)g(x)dx)2
当且仅当
f
(
x
)
=
g
(
x
)
f(x)=g(x)
f(x)=g(x)时,取等号。
根据柯西-施瓦茨不等式(Cauchy-Schwarz inequality),有
(
∫
(
θ
^
−
θ
)
2
p
(
x
;
θ
)
d
x
)
(
∫
(
∂
ln
p
(
x
;
θ
)
∂
θ
)
2
p
(
x
;
θ
)
d
x
)
≥
1
⇒
∫
(
θ
^
−
θ
)
2
p
(
x
;
θ
)
d
x
≥
1
(
∫
(
∂
ln
p
(
x
;
θ
)
∂
θ
)
2
p
(
x
;
θ
)
d
x
)
\left({ \int (\hat{\theta}-\theta)^2{p(\boldsymbol{x};\theta)}\text{d}\boldsymbol{x}}\right) \left({\int \left(\frac{\partial \ln p(\boldsymbol{x};\theta)}{\partial \theta}\right)^2p(\boldsymbol{x};\theta)\text{d}\boldsymbol{x}}\right)\geq 1\\ \Rightarrow \int (\hat{\theta}-\theta)^2{p(\boldsymbol{x};\theta)}\text{d}\boldsymbol{x}\geq \frac{1}{\left({\int \left(\frac{\partial \ln p(\boldsymbol{x};\theta)}{\partial \theta}\right)^2p(\boldsymbol{x};\theta)\text{d}\boldsymbol{x}}\right)}
(∫(θ^−θ)2p(x;θ)dx)(∫(∂θ∂lnp(x;θ))2p(x;θ)dx)≥1⇒∫(θ^−θ)2p(x;θ)dx≥(∫(∂θ∂lnp(x;θ))2p(x;θ)dx)1
即
D
(
θ
^
)
≥
1
E
[
(
∂
ln
p
(
x
;
θ
)
∂
θ
)
2
]
D(\hat{\theta})\geq \frac{1}{\mathbb{E}\left[{\left(\frac{\partial \ln p(\boldsymbol{x};\theta)}{\partial \theta}\right)^2}\right]}
D(θ^)≥E[(∂θ∂lnp(x;θ))2]1
现在只需证明
E
[
(
∂
ln
p
(
x
;
θ
)
∂
θ
)
2
]
=
−
E
[
∂
2
ln
p
(
x
;
θ
)
∂
θ
2
]
\mathbb{E}\left[{\left(\frac{\partial \ln p(\boldsymbol{x};\theta)}{\partial \theta}\right)^2}\right]=-\mathbb{E}\left[{ \frac{\partial ^2\ln p(\boldsymbol{x};\theta)}{\partial \theta^2}}\right]
E[(∂θ∂lnp(x;θ))2]=−E[∂θ2∂2lnp(x;θ)]
证:由正则条件
E
[
∂
ln
p
(
x
;
θ
)
∂
θ
]
=
0
\mathbb{E}\left[{\frac{\partial \ln p(\boldsymbol{x};\theta)}{\partial \theta}}\right]=0
E[∂θ∂lnp(x;θ)]=0,等式两边对
θ
\theta
θ求偏导,有
∂
∂
θ
∫
∂
ln
p
(
x
;
θ
)
∂
θ
p
(
x
;
θ
)
d
x
=
0
⇒
∫
[
∂
2
ln
p
(
x
;
θ
)
∂
θ
2
p
(
x
;
θ
)
+
∂
ln
p
(
x
;
θ
)
∂
θ
∂
p
(
x
;
θ
)
∂
θ
]
d
x
=
0
⇒
∫
∂
2
ln
p
(
x
;
θ
)
∂
θ
2
p
(
x
;
θ
)
d
x
=
−
∫
(
∂
ln
p
(
x
;
θ
)
∂
θ
)
2
p
(
x
;
θ
)
d
x
\frac{\partial }{\partial \theta} \int \frac{\partial \ln p(\boldsymbol{x};\theta)}{\partial \theta} p(\boldsymbol{x};\theta)\text{d}\boldsymbol{x}=0\quad \qquad \qquad \qquad \ \\ \quad \Rightarrow \int \left[{\frac{\partial^2 \ln p(\boldsymbol{x};\theta)}{\partial \theta^2}p(\boldsymbol{x};\theta)+\frac{\partial \ln p(\boldsymbol{x};\theta)}{\partial \theta}\frac{\partial p(\boldsymbol{x};\theta)}{\partial \theta}}\right]\text{d}\boldsymbol{x}=0\\ \qquad \ \Rightarrow \int \frac{\partial^2 \ln p(\boldsymbol{x};\theta)}{\partial \theta^2}p(\boldsymbol{x};\theta)\text{d}\boldsymbol{x}=-\int \left({\frac{\partial \ln p(\boldsymbol{x};\theta)}{\partial \theta}}\right)^2p(\boldsymbol{x};\theta)\text{d}\boldsymbol{x}
∂θ∂∫∂θ∂lnp(x;θ)p(x;θ)dx=0 ⇒∫[∂θ2∂2lnp(x;θ)p(x;θ)+∂θ∂lnp(x;θ)∂θ∂p(x;θ)]dx=0 ⇒∫∂θ2∂2lnp(x;θ)p(x;θ)dx=−∫(∂θ∂lnp(x;θ))2p(x;θ)dx
现在证明,若估计量
θ
^
=
g
(
x
)
\hat{\theta}=\text{g}(\boldsymbol{x})
θ^=g(x)可以达到CRLB,则有
∂
ln
p
(
x
;
θ
)
∂
θ
=
I
(
θ
)
(
g
(
x
)
−
θ
)
\frac{\partial \ln p(\boldsymbol{x};\theta)}{\partial \theta} =\mathbf{I}(\theta)(g(\boldsymbol{x})-\theta)
∂θ∂lnp(x;θ)=I(θ)(g(x)−θ)
其中,
I
(
θ
)
=
−
E
[
∂
2
ln
p
(
x
;
θ
)
∂
θ
2
]
\mathbf{I}(\theta)=-\mathbb{E}\left[{ \frac{\partial ^2\ln p(\boldsymbol{x};\theta)}{\partial \theta^2}}\right]
I(θ)=−E[∂θ2∂2lnp(x;θ)]。
证:等式两边同时对
θ
\theta
θ求偏导,有
∂
2
ln
p
(
x
;
θ
)
∂
θ
2
=
∂
I
(
θ
)
∂
θ
(
g
(
x
)
−
θ
)
−
I
(
θ
)
\frac{\partial^2 \ln p(\boldsymbol{x};\theta)}{\partial \theta^2} =\frac{\partial \mathbf{I}(\theta)}{\partial \theta}(g(\boldsymbol{x})-\theta)-\mathbf{I}(\theta)
∂θ2∂2lnp(x;θ)=∂θ∂I(θ)(g(x)−θ)−I(θ)
等式两边同时对乘上
p
(
x
;
θ
)
p(\boldsymbol{x};\theta)
p(x;θ),并对
x
\boldsymbol{x}
x积分,得
E
[
∂
2
ln
p
(
x
;
θ
)
∂
θ
2
]
=
−
I
(
θ
)
\mathbb{E}\left[{\frac{\partial^2 \ln p(\boldsymbol{x};\theta)}{\partial \theta^2} }\right]=-\mathbf{I}(\theta)
E[∂θ2∂2lnp(x;θ)]=−I(θ)
证毕。