Why we need CRLB
- 假定我们有n个样本数据 ( x 1 , x 2 , . . . x n ) (x_1, x_2,...x_n) (x1,x2,...xn),这些数据是独立同分布的,具有概率密度 p ( x ∣ θ ) p(x|\theta) p(x∣θ)。其中 θ \theta θ是确定但未知的一个参数(Deterministic but unknown)。
- 我们希望从样本数据中得到对参数 θ \theta θ的一个估计 θ ^ = T ( x 1 , x 2 , . . . , x n ) \hat{\theta}=T(x_1, x_2,...,x_n) θ^=T(x1,x2,...,xn)。
- 通常用于衡量估计好坏的指标是均方误差MSE: E [ ( θ ^ − θ ) 2 ] E[(\hat{\theta}-\theta)^2] E[(θ^−θ)2]。
- 我们希望我们得到的估计量都是最小方差无偏估计量(MVUE),但是这往往是过于理想化的,甚至是永远不可实现的。尽管如此,我们依旧可以从MVUE中得到关于估计量的一些知识。
- 我们想要知道,最好的MVUE的表现能有多好,换句话说,均方误差最小能够有多小,即均方误差的下界 E [ ( θ ^ − θ ) 2 ] ≥ C ( θ , n ) E[(\hat{\theta}-\theta)^2]\geq C(\theta,n) E[(θ^−θ)2]≥C(θ,n)。
下面通过一个简单的例子来找找感觉。
- 假设我们每次采样只采一个数据 x x x,该数据服从以待估计量 θ \theta θ为均值, σ 2 \sigma^2 σ2为方差的高斯分布。
- 可以写出 x x x的概率密度为 p ( x ∣ θ ) = 1 2 π σ e − 1 2 σ 2 ( x − θ ) 2 p(x|\theta)=\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{1}{2\sigma^2}(x-\theta)^2} p(x∣θ)=2πσ1e−2σ21(x−θ)2。
- 对等式两边取对数,可以得到: l o g p ( x ∣ θ ) = − l o g ( 2 π σ ) − 1 2 σ 2 ( x − θ ) 2 log p(x|\theta)=-log(\sqrt{2\pi}\sigma)-\frac{1}{2\sigma^2}(x-\theta)^2 logp(x∣θ)=−log(2πσ)−2σ21(x−θ)2
- 再对取对数之后的结果对 θ \theta θ求导数: ∂ ∂ θ l o g p ( x ∣ θ ) = 1 σ 2 ( x − θ ) \frac{\partial}{\partial \theta}logp(x|\theta)=\frac{1}{\sigma^2}(x-\theta) ∂θ∂logp(x∣θ)=σ21(x−θ)
- 求二阶偏导: ∂ 2 ∂ θ 2 l o g p ( x ∣ θ ) = − 1 σ 2 \frac{\partial^2}{\partial \theta^2}logp(x|\theta)=-\frac{1}{\sigma^2} ∂θ2∂2logp(x∣θ)=−σ21
- 即 σ 2 = 1 − ∂ 2 ∂ θ 2 l o g p ( x ∣ θ ) \sigma^2=\frac{1}{-\frac{\partial^2}{\partial \theta^2}logp(x|\theta)} σ2=−∂θ2∂2logp(x∣θ)1
- 在这个简单的例子中, x x x的方差 σ 2 \sigma^2 σ2就是我们估计的均方误差
- 通过这个例子,我们能够感觉到,我们可以通过对我们的概率模型进行一些操作(求导),来得到和估计误差的一个关系,下面将详细描述这样的关系。
CRLB for single parameter
- 假定我们有一组n个样本的数据 x = ( x 1 , x 2 , . . . , x n ) T x=(x_1,x_2,...,x_n)^T x=(x1,x2,...,xn)T,我们希望通过这组数据对某个未知参数 θ ∈ R \theta\in R θ∈R进行估计,即 θ ^ = θ ^ ( x ) \hat{\theta}=\hat{\theta}(x) θ^=θ^(x), θ ^ ( x ) \hat{\theta}(x) θ^(x)是我们的估计函数。
- 我们要求 θ ^ \hat{\theta} θ^是一个无偏估计量,即 E [ θ ^ − θ ] = 0 E[\hat{\theta}-\theta]=0 E[θ^−θ]=0。
- 于是我们得到: ∫ R n ( θ ^ − θ ) p ( x ∣ θ ) d x = 0 ⇒ ∂ ∂ θ ∫ R n ( θ ^ − θ ) p ( x ∣ θ ) d x = 0 ⇒ − ∫ R n p ( x ∣ θ ) d x + ∫ R n ( θ ^ − θ ) ∂ ∂ θ p ( x ∣ θ ) d x = 0 ⇒ ∫ R n ( θ ^ − θ ) ∂ ∂ θ p ( x ∣ θ ) d x = 1 \int_{R^n}(\hat{\theta}-\theta)p(x|\theta)dx=0 \\ \Rightarrow\frac{\partial}{\partial \theta}\int_{R^n}(\hat{\theta}-\theta)p(x|\theta)dx=0 \\ \Rightarrow -\int_{R^n}p(x|\theta)dx+\int_{R^n}(\hat{\theta}-\theta)\frac{\partial}{\partial \theta}p(x|\theta)dx=0 \\ \Rightarrow\int_{R^n}(\hat{\theta}-\theta)\frac{\partial}{\partial \theta}p(x|\theta)dx=1 ∫Rn(θ^−θ)p(x∣θ)dx=0⇒∂θ∂∫Rn(θ^−θ)p(x∣θ)dx=0⇒−∫Rnp(x∣θ)dx+∫Rn(θ^−θ)∂θ∂p(x∣θ)dx=0⇒∫Rn(θ^−θ)∂θ∂p(x∣θ)dx=1
这里有一个小技巧,在后面的推导中会频繁用到: ∂ ∂ θ p ( x ∣ θ ) = ( ∂ ∂ θ l o g p ( x ∣ θ ) ) p ( x ∣ θ ) \frac{\partial}{\partial \theta}p(x|\theta)=(\frac{\partial}{\partial \theta}logp(x|\theta))p(x|\theta) ∂θ∂p(x∣θ)=(∂θ∂logp(x∣θ))p(x∣θ)
- 接前面的推导: ⇒ ∫ R n ( θ ^ − θ ) ( ∂ ∂ θ l o g p ( x ∣ θ ) ) p ( x ∣ θ ) d x = 1 ⇒ E [ ( θ ^ − θ ) ∂ ∂ θ l o g p ( x ∣ θ ) ] = 1 \Rightarrow\int_{R^n}(\hat{\theta}-\theta)(\frac{\partial}{\partial \theta}logp(x|\theta))p(x|\theta)dx=1 \\ \Rightarrow E[(\hat{\theta}-\theta)\frac{\partial}{\partial \theta}logp(x|\theta)]=1 ⇒∫Rn(θ^−θ)(∂θ∂logp(x∣θ))p(x∣θ)dx=1⇒E[(θ^−θ)∂θ∂logp(x∣θ)]=1
这里是最重要的一步,利用Cauchy-Schwarz inequality: ( E [ X Y ] ) 2 ≤ E [ X 2 ] E [ Y 2 ] (E[XY])^2\leq E[X^2]E[Y^2] (E[XY])2≤E[X2]E[Y2]
- 我们得到: 1 ≤ E [ ( θ ^ − θ ) 2 ] E [ ( ∂ ∂ θ l o g p ( x ∣ θ ) ) 2 ] ⇒ E [ ( θ ^ − θ ) 2 ] ≥ 1 E [ ( ∂ ∂ θ l o g p ( x ∣ θ ) ) 2 ] 1\leq E[(\hat{\theta}-\theta)^2]E[(\frac{\partial}{\partial \theta}logp(x|\theta))^2] \\ \Rightarrow E[(\hat{\theta}-\theta)^2] \geq \frac{1}{E[(\frac{\partial}{\partial \theta}logp(x|\theta))^2]} 1≤E[(θ^−θ)2]E[(∂θ∂logp(x∣θ))2]⇒E[(θ^−θ)2]≥E[(∂θ∂logp(x∣θ))2]1
这里的 E [ ( ∂ ∂ θ l o g p ( x ∣ θ ) ) 2 ] E[(\frac{\partial}{\partial \theta}logp(x|\theta))^2] E[(∂θ∂logp(x∣θ))2]被称为Fisher information(费雪信息),通过前面的推导,我们得到了这样的一个关系,即我们得到的估计量的均方误差不会小于Fisher information的倒数,即我们得到了MSE的下界。这个下界称为Cramer-Rao Lower Bound(CRLB)。他描述了无偏估计量能够取得的最小的误差,无论采用何种估计方法,都无法将误差降到比这个下界更低的值。
- 前面推导过程中得到的Fisher information是关于 l o g p ( x ∣ θ ) logp(x|\theta) logp(x∣θ)的一阶偏导的形式。但是在实际计算的时候,一阶偏导的形式可能会比较复杂(参考前面的简单例子),因此能不能将Fisher information进一步写成关于 l o g p ( x ∣ θ ) logp(x|\theta) logp(x∣θ)的二阶偏导形式?
- 我们有: ∫ R n p ( x ∣ θ ) d x = 1 \int_{R^n}p(x|\theta)dx=1 ∫Rnp(x∣θ)dx=1
- 求对等式两边求 θ \theta θ的一阶偏导,我们得到: ∂ ∂ θ ∫ R n p ( x ∣ θ ) d x = 0 ⇒ ∫ R n ( ∂ ∂ θ l o g p ( x ∣ θ ) ) p ( x ∣ θ ) d x = 0 \frac{\partial}{\partial \theta}\int_{R^n}p(x|\theta)dx=0 \\ \Rightarrow \int_{R^n}(\frac{\partial}{\partial \theta}logp(x|\theta))p(x|\theta)dx=0 ∂θ∂∫Rnp(x∣θ)dx=0⇒∫Rn(∂θ∂logp(x∣θ))p(x∣θ)dx=0
- 进一步求二阶偏导,我们有: ∂ ∂ θ ∫ R n ( ∂ ∂ θ l o g p ( x ∣ θ ) ) p ( x ∣ θ ) d x = 0 \frac{\partial}{\partial \theta}\int_{R^n}(\frac{\partial}{\partial \theta}logp(x|\theta))p(x|\theta)dx=0 ∂θ∂∫Rn(∂θ∂logp(x∣θ))p(x∣θ)dx=0
- 利用函数乘积求导的方法,我们得到: ∫ R n ( ∂ 2 ∂ θ 2 l o g p ( x ∣ θ ) ) p ( x ∣ θ ) d x + ∫ R n ( ∂ ∂ θ l o g p ( x ∣ θ ) ) 2 p ( x ∣ θ ) d x = 0 \int_{R^n}(\frac{\partial^2}{\partial \theta^2}logp(x|\theta))p(x|\theta)dx + \int_{R^n}(\frac{\partial}{\partial \theta}logp(x|\theta))^2 p(x|\theta)dx=0 ∫Rn(∂θ2∂2logp(x∣θ))p(x∣θ)dx+∫Rn(∂θ∂logp(x∣θ))2p(x∣θ)dx=0
- 最终我们得到了Fisher information关于概率模型二阶偏导的形式如下: E [ ( ∂ ∂ θ l o g p ( x ∣ θ ) ) 2 ] = − E [ ∂ 2 ∂ θ 2 l o g p ( x ∣ θ ) ) ] E[(\frac{\partial}{\partial \theta}logp(x|\theta))^2]=-E[\frac{\partial^2}{\partial \theta^2}logp(x|\theta))] E[(∂θ∂logp(x∣θ))2]=−E[∂θ2∂2logp(x∣θ))]
- 于是CRLB可以写成: E [ ( θ ^ − θ ) 2 ] ≥ 1 − E [ ∂ 2 ∂ θ 2 l o g p ( x ∣ θ ) ) ] E[(\hat{\theta}-\theta)^2] \geq \frac{1}{-E[\frac{\partial^2}{\partial \theta^2}logp(x|\theta))]} E[(θ^−θ)2]≥−E[∂θ2∂2logp(x∣θ))]1
CRLB for multiple parameters (vector)
前面我们考虑仅有一个参数需要估计的情况,下面将其推广至具有多个待估计参数的情形(矢量形式)
- 同样的,假定我们有一组n个样本的数据 x = ( x 1 , x 2 , … , x n ) T x=(x_1,x_2,\ldots,x_n)^T x=(x1,x2,…,xn)T,我们希望通过这组数据对 k k k个未知参数 θ = ( θ 1 , θ 2 , … , θ k ) T \theta = (\theta_1, \theta_2,\ldots,\theta_k)^T θ=(θ1,θ2,…,θk)T进行估计,得到的估计为 θ ^ = ( θ ^ 1 ( x ) , θ ^ 2 ( x ) , … , θ ^ k ( x ) ) T \hat{\theta}=(\hat{\theta}_1(x), \hat{\theta}_2(x), \ldots,\hat{\theta}_k(x))^T θ^=(θ^1(x),θ^2(x),…,θ^k(x))T 对于每个位置参数,我们同样考虑为无偏估计,即 E [ θ i ^ ] = θ i E[\hat{\theta_i}] = \theta_i E[θi^]=θi。
- 对于 k k k个估计值中的任何一个,其必须满足自身的CRLB,即 E [ ( θ ^ k − θ ) 2 ] ≥ 1 − E [ ∂ 2 ∂ θ k 2 l o g p ( x ∣ θ k ) ) ] E[(\hat{\theta}_k-\theta)^2] \geq \frac{1}{-E[\frac{\partial^2}{\partial \theta_k^2}logp(x|\theta_k))]} E[(θ^k−θ)2]≥−E[∂θk2∂2logp(x∣θk))]1
但是仅仅对于单个参数考虑是不够的,我们还需要考虑各个参数之间的相互影响。
- 我们定义相关矩阵(协方差矩阵)如下: C θ = E [ ( θ ^ − θ ) ( θ ^ − θ ) T ] C_\theta=E[(\hat{\theta}-\theta)(\hat{\theta}-\theta)^T] Cθ=E[(θ^−θ)(θ^−θ)T] 该矩阵一定是一个正定矩阵,即 C θ ≥ 0 C_\theta\geq0 Cθ≥0。
关于正定矩阵的定义如下: A ∈ R n × n , A ≥ 0 ⟺ ∀ α ∈ R n , α T A α ≥ 0 A\in R^{n\times n}, A\geq 0 \iff \forall\alpha\in R^n,\alpha^TA\alpha\geq 0 A∈Rn×n,A≥0⟺∀α∈Rn,αTAα≥0
证明 C θ C_\theta Cθ是正定的: ∀ α ∈ R k , α T C θ α = α T E [ ( θ ^ − θ ) ( θ ^ − θ ) T ] α = E [ α T ( θ ^ − θ ) ( θ ^ − θ ) T α ] = E [ ( α T ( θ ^ − θ ) ) 2 ] ≥ 0 \begin{aligned} \forall \alpha\in R^k, \alpha^TC_\theta\alpha&=\alpha^TE[(\hat{\theta}-\theta)(\hat{\theta}-\theta)^T]\alpha \\ &= E[\alpha^T(\hat{\theta}-\theta)(\hat{\theta}-\theta)^T\alpha] \\ &=E[(\alpha^T(\hat{\theta}-\theta))^2] \\&\geq 0\end{aligned} ∀α∈Rk,αTCθα=αTE[(θ^−θ)(θ^−θ)T]α=E[αT(θ^−θ)(θ^−θ)Tα]=E[(αT(θ^−θ))2]≥0
- 我们定义概率模型取对数之后关于 θ \theta θ的梯度向量为: ∇ θ l o g p ( x ∣ θ ) \nabla_\theta logp(x|\theta) ∇θlogp(x∣θ),其中 ∇ θ = ( ∂ ∂ θ 1 , ∂ ∂ θ k , … , ∂ ∂ θ k ) T \nabla_\theta=(\frac{\partial}{\partial \theta_1}, \frac{\partial}{\partial \theta_k}, \ldots, \frac{\partial}{\partial \theta_k})^T ∇θ=(∂θ1∂,∂θk∂,…,∂θk∂)T
- 我们定义Fisher Information Matrix(FIM)如下: F I M = E [ ( ∇ θ l o g p ( x ∣ θ ) ) ( ∇ θ l o g p ( x ∣ θ ) ) T ] FIM=E[(\nabla_\theta logp(x|\theta))(\nabla_\theta logp(x|\theta))^T] FIM=E[(∇θlogp(x∣θ))(∇θlogp(x∣θ))T] 同样的,FIM也是一个正定矩阵。
从前面单个参数的情况下我们得到了误差方差的下界是Fisher information的倒数。而在多个参数的情况下,误差方差变成了协方差矩阵 C θ C_\theta Cθ,而Fisher information也变成了FIM。因此参照单个参数的结论,我们很容易能够照猫画虎的得到多个参数下的结论: C θ ≥ F I M − 1 C_\theta \geq FIM^{-1} Cθ≥FIM−1,这是一个很自然的推广,下面将对其进行相应的证明。
- 我们想要证明 C θ ≥ F I M − 1 C_\theta \geq FIM^{-1} Cθ≥FIM−1,也就是希望证明 C θ − F I M ≥ 0 C_\theta - FIM\geq0 Cθ−FIM≥0,即证明矩阵 C θ − F I M C_\theta-FIM Cθ−FIM是一个正定矩阵。
- 我们首先定义一个新的向量: Y = ( θ 1 ^ − θ 1 , θ 2 ^ − θ 2 , … , θ k ^ − θ k , ∂ ∂ θ 1 l o g p ( x ∣ θ ) , ∂ ∂ θ 2 l o g p ( x ∣ θ ) , … , ∂ ∂ θ k l o g p ( x ∣ θ ) ) T = ( θ ^ − θ , ∇ θ l o g p ( x ∣ θ ) ) T \begin{aligned}Y&=(\hat{\theta_1}-\theta_1, \hat{\theta_2}-\theta_2, \ldots,\hat{\theta_k}-\theta_k, \frac{\partial}{\partial \theta_1}logp(x|\theta), \frac{\partial}{\partial \theta_2}logp(x|\theta), \ldots, \frac{\partial}{\partial \theta_k}logp(x|\theta))^T \\ &=(\hat{\theta}-\theta, \nabla_\theta logp(x|\theta))^T \end{aligned} Y=(θ1^−θ1,θ2^−θ2,…,θk^−θk,∂θ1∂logp(x∣θ),∂θ2∂logp(x∣θ),…,∂θk∂logp(x∣θ))T=(θ^−θ,∇θlogp(x∣θ))T
- 计算该向量的相关矩阵:
E
[
Y
Y
T
]
=
E
[
(
θ
^
−
θ
∇
θ
l
o
g
p
(
x
∣
θ
)
)
(
(
θ
^
−
θ
)
T
,
(
∇
θ
l
o
g
p
(
x
∣
θ
)
)
T
)
]
=
(
E
[
(
θ
^
−
θ
)
(
θ
^
−
θ
)
T
]
E
[
(
θ
^
−
θ
)
(
∇
θ
l
o
g
p
(
x
∣
θ
)
)
T
]
E
[
(
∇
θ
l
o
g
p
(
x
∣
θ
)
)
(
θ
^
−
θ
)
T
]
E
[
∇
θ
l
o
g
p
(
x
∣
θ
)
(
∇
θ
l
o
g
p
(
x
∣
θ
)
)
T
]
)
=
(
C
θ
E
[
(
θ
^
−
θ
)
(
∇
θ
l
o
g
p
(
x
∣
θ
)
)
T
]
E
[
(
∇
θ
l
o
g
p
(
x
∣
θ
)
)
(
θ
^
−
θ
)
T
]
F
I
M
)
\begin{aligned} E[YY^T]&=E[\bigl( \begin{matrix} \hat{\theta}-\theta \\ \nabla_\theta logp(x|\theta)\end{matrix}\bigr) ((\hat{\theta}-\theta)^T, (\nabla_\theta logp(x|\theta))^T)] \\ &= \bigl(\begin{matrix} E[(\hat{\theta}-\theta)(\hat{\theta}-\theta)^T] & E[(\hat{\theta}-\theta)(\nabla_\theta logp(x|\theta))^T] \\ E[(\nabla_\theta logp(x|\theta))(\hat{\theta}-\theta)^T] & E[\nabla_\theta logp(x|\theta)(\nabla_\theta logp(x|\theta))^T]\end{matrix} \bigr) \\ &=\bigl( \begin{matrix} C_\theta & E[(\hat{\theta}-\theta)(\nabla_\theta logp(x|\theta))^T] \\ E[(\nabla_\theta logp(x|\theta))(\hat{\theta}-\theta)^T] & FIM\end{matrix}\bigr) \end{aligned}
E[YYT]=E[(θ^−θ∇θlogp(x∣θ))((θ^−θ)T,(∇θlogp(x∣θ))T)]=(E[(θ^−θ)(θ^−θ)T]E[(∇θlogp(x∣θ))(θ^−θ)T]E[(θ^−θ)(∇θlogp(x∣θ))T]E[∇θlogp(x∣θ)(∇θlogp(x∣θ))T])=(CθE[(∇θlogp(x∣θ))(θ^−θ)T]E[(θ^−θ)(∇θlogp(x∣θ))T]FIM)
同样的, E [ Y Y T ] E[YY^T] E[YYT]也是一个正定矩阵, 它的主对角线上的元素分别是 k k k个参数的相关矩阵以及FIM - 下面考虑非主对角线上的两个矩阵,以 E [ ( θ ^ − θ ) ( ∇ θ l o g p ( x ∣ θ ) ) T ] E[(\hat{\theta}-\theta)(\nabla_\theta logp(x|\theta))^T] E[(θ^−θ)(∇θlogp(x∣θ))T]为例,考虑其第 i , j i,j i,j个元素: E [ ( θ i ^ − θ i ) ( ∂ ∂ θ j l o g p ( x ∣ θ ) ) ] = ∫ R n ( θ i ^ − θ i ) ( ∂ ∂ θ j l o g p ( x ∣ θ ) ) p ( x ∣ θ ) d x = ∫ R n ( θ i ^ − θ i ) ( ∂ ∂ θ j p ( x ∣ θ ) ) d x = ∫ R n θ i ^ ( ∂ ∂ θ j p ( x ∣ θ ) ) d x − ∫ R n θ i ( ∂ ∂ θ j p ( x ∣ θ ) ) d x = ∂ ∂ θ j ∫ R n θ i ^ p ( x ∣ θ ) ) d x − 0 = ∂ ∂ θ j E [ θ i ^ ] = ∂ ∂ θ j θ i = { 1 i f i = j 0 i f i ≠ j \begin{aligned}E[(\hat{\theta_i}-\theta_i)(\frac{\partial}{\partial \theta_j}logp(x|\theta))] &=\int_{R^n}(\hat{\theta_i}-\theta_i)(\frac{\partial}{\partial \theta_j}logp(x|\theta))p(x|\theta)dx \\ &= \int_{R^n}(\hat{\theta_i}-\theta_i)(\frac{\partial}{\partial \theta_j}p(x|\theta))dx \\ &= \int_{R^n}\hat{\theta_i}(\frac{\partial}{\partial \theta_j}p(x|\theta))dx -\int_{R^n}\theta_i(\frac{\partial}{\partial \theta_j}p(x|\theta))dx \\ &= \frac{\partial}{\partial \theta_j}\int_{R^n}\hat{\theta_i}p(x|\theta))dx-0\\ &= \frac{\partial}{\partial \theta_j}E[\hat{\theta_i}]\\&=\frac{\partial}{\partial \theta_j}\theta_i\\&=\left\{ \begin{matrix} 1 \qquad if \enspace i=j \\ 0 \qquad if \enspace i\neq j \end{matrix}\right. \end{aligned} E[(θi^−θi)(∂θj∂logp(x∣θ))]=∫Rn(θi^−θi)(∂θj∂logp(x∣θ))p(x∣θ)dx=∫Rn(θi^−θi)(∂θj∂p(x∣θ))dx=∫Rnθi^(∂θj∂p(x∣θ))dx−∫Rnθi(∂θj∂p(x∣θ))dx=∂θj∂∫Rnθi^p(x∣θ))dx−0=∂θj∂E[θi^]=∂θj∂θi={1ifi=j0ifi=j
∫ R n θ i ( ∂ ∂ θ j p ( x ∣ θ ) ) d x = θ i ∂ ∂ θ j ∫ R n p ( x ∣ θ ) ) d x = θ i ∂ ∂ θ j 1 = 0 \begin{aligned}\int_{R^n}\theta_i(\frac{\partial}{\partial \theta_j}p(x|\theta))dx &= \theta_i\frac{\partial}{\partial \theta_j} \int_{R^n}p(x|\theta))dx \\&=\theta_i\frac{\partial}{\partial \theta_j}1 \\&=0 \end{aligned} ∫Rnθi(∂θj∂p(x∣θ))dx=θi∂θj∂∫Rnp(x∣θ))dx=θi∂θj∂1=0
- 通过上述推导,我们可以得到结论: E [ ( θ ^ − θ ) ( ∇ θ l o g p ( x ∣ θ ) ) T ] E[(\hat{\theta}-\theta)(\nabla_\theta logp(x|\theta))^T] E[(θ^−θ)(∇θlogp(x∣θ))T]是一个单位阵,而 E [ ( ∇ θ l o g p ( x ∣ θ ) ) ( θ ^ − θ ) T ] E[(\nabla_\theta logp(x|\theta))(\hat{\theta}-\theta)^T] E[(∇θlogp(x∣θ))(θ^−θ)T]是其转置,故也是一个单位阵。
- 因此 E [ Y Y T ] E[YY^T] E[YYT]变成了如下形式: E [ Y Y T ] = ( C θ I I F I M ) E[YY^T]=\bigl( \begin{matrix} C_\theta & I \\ I& FIM\end{matrix}\bigr) E[YYT]=(CθIIFIM)
- 通过Schur-Complement,我们可以得到: ( I − F I M − 1 0 I ) ( C θ I I F I M ) ( I 0 − F I M − 1 I ) = ( C θ − F I M − 1 0 0 F I M ) ≥ 0 \bigl( \begin{matrix} I & -FIM^{-1} \\ 0& I\end{matrix}\bigr) \bigl( \begin{matrix} C_\theta & I \\ I& FIM\end{matrix}\bigr)\bigl( \begin{matrix} I & 0\\ -FIM^{-1}& I\end{matrix}\bigr) = \bigl( \begin{matrix} C_\theta-FIM^{-1} & 0 \\ 0& FIM\end{matrix}\bigr) \geq0 (I0−FIM−1I)(CθIIFIM)(I−FIM−10I)=(Cθ−FIM−100FIM)≥0
这里需要证明当 A ≥ 0 A\geq 0 A≥0时,对任意矩阵 B B B, 有 B T A B ≥ 0 B^TAB \geq 0 BTAB≥0: ∀ α , α T B T A B α = ( B α ) T A ( B α ) = β T A β ≥ 0 \forall \alpha, \alpha^TB^TAB\alpha=(B\alpha)^TA(B\alpha)=\beta^TA\beta\geq 0 ∀α,αTBTABα=(Bα)TA(Bα)=βTAβ≥0
- 由于该矩阵是一个分块对角阵,其为正定矩阵的充要条件是对角线上的矩阵都是正定的,因此我们得到: C θ − F I M − 1 ≥ 0 C_\theta-FIM^{-1}\geq 0 Cθ−FIM−1≥0 ,证明完毕。