Cramer-Rao Lower Bound的推导

Why we need CRLB

  • 假定我们有n个样本数据 ( x 1 , x 2 , . . . x n ) (x_1, x_2,...x_n) (x1,x2,...xn),这些数据是独立同分布的,具有概率密度 p ( x ∣ θ ) p(x|\theta) p(xθ)。其中 θ \theta θ是确定但未知的一个参数(Deterministic but unknown)。
  • 我们希望从样本数据中得到对参数 θ \theta θ的一个估计 θ ^ = T ( x 1 , x 2 , . . . , x n ) \hat{\theta}=T(x_1, x_2,...,x_n) θ^=T(x1,x2,...,xn)
  • 通常用于衡量估计好坏的指标是均方误差MSE: E [ ( θ ^ − θ ) 2 ] E[(\hat{\theta}-\theta)^2] E[(θ^θ)2]
  • 我们希望我们得到的估计量都是最小方差无偏估计量(MVUE),但是这往往是过于理想化的,甚至是永远不可实现的。尽管如此,我们依旧可以从MVUE中得到关于估计量的一些知识。
  • 我们想要知道,最好的MVUE的表现能有多好,换句话说,均方误差最小能够有多小,即均方误差的下界 E [ ( θ ^ − θ ) 2 ] ≥ C ( θ , n ) E[(\hat{\theta}-\theta)^2]\geq C(\theta,n) E[(θ^θ)2]C(θ,n)

下面通过一个简单的例子来找找感觉。

  • 假设我们每次采样只采一个数据 x x x,该数据服从以待估计量 θ \theta θ为均值, σ 2 \sigma^2 σ2为方差的高斯分布。
  • 可以写出 x x x的概率密度为 p ( x ∣ θ ) = 1 2 π σ e − 1 2 σ 2 ( x − θ ) 2 p(x|\theta)=\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{1}{2\sigma^2}(x-\theta)^2} p(xθ)=2π σ1e2σ21(xθ)2
  • 对等式两边取对数,可以得到: l o g p ( x ∣ θ ) = − l o g ( 2 π σ ) − 1 2 σ 2 ( x − θ ) 2 log p(x|\theta)=-log(\sqrt{2\pi}\sigma)-\frac{1}{2\sigma^2}(x-\theta)^2 logp(xθ)=log(2π σ)2σ21(xθ)2
  • 再对取对数之后的结果对 θ \theta θ求导数: ∂ ∂ θ l o g p ( x ∣ θ ) = 1 σ 2 ( x − θ ) \frac{\partial}{\partial \theta}logp(x|\theta)=\frac{1}{\sigma^2}(x-\theta) θlogp(xθ)=σ21(xθ)
  • 求二阶偏导: ∂ 2 ∂ θ 2 l o g p ( x ∣ θ ) = − 1 σ 2 \frac{\partial^2}{\partial \theta^2}logp(x|\theta)=-\frac{1}{\sigma^2} θ22logp(xθ)=σ21
  • σ 2 = 1 − ∂ 2 ∂ θ 2 l o g p ( x ∣ θ ) \sigma^2=\frac{1}{-\frac{\partial^2}{\partial \theta^2}logp(x|\theta)} σ2=θ22logp(xθ)1
  • 在这个简单的例子中, x x x的方差 σ 2 \sigma^2 σ2就是我们估计的均方误差
  • 通过这个例子,我们能够感觉到,我们可以通过对我们的概率模型进行一些操作(求导),来得到和估计误差的一个关系,下面将详细描述这样的关系。

CRLB for single parameter

  • 假定我们有一组n个样本的数据 x = ( x 1 , x 2 , . . . , x n ) T x=(x_1,x_2,...,x_n)^T x=(x1,x2,...,xn)T,我们希望通过这组数据对某个未知参数 θ ∈ R \theta\in R θR进行估计,即 θ ^ = θ ^ ( x ) \hat{\theta}=\hat{\theta}(x) θ^=θ^(x) θ ^ ( x ) \hat{\theta}(x) θ^(x)是我们的估计函数。
  • 我们要求 θ ^ \hat{\theta} θ^是一个无偏估计量,即 E [ θ ^ − θ ] = 0 E[\hat{\theta}-\theta]=0 E[θ^θ]=0
  • 于是我们得到: ∫ R n ( θ ^ − θ ) p ( x ∣ θ ) d x = 0 ⇒ ∂ ∂ θ ∫ R n ( θ ^ − θ ) p ( x ∣ θ ) d x = 0 ⇒ − ∫ R n p ( x ∣ θ ) d x + ∫ R n ( θ ^ − θ ) ∂ ∂ θ p ( x ∣ θ ) d x = 0 ⇒ ∫ R n ( θ ^ − θ ) ∂ ∂ θ p ( x ∣ θ ) d x = 1 \int_{R^n}(\hat{\theta}-\theta)p(x|\theta)dx=0 \\ \Rightarrow\frac{\partial}{\partial \theta}\int_{R^n}(\hat{\theta}-\theta)p(x|\theta)dx=0 \\ \Rightarrow -\int_{R^n}p(x|\theta)dx+\int_{R^n}(\hat{\theta}-\theta)\frac{\partial}{\partial \theta}p(x|\theta)dx=0 \\ \Rightarrow\int_{R^n}(\hat{\theta}-\theta)\frac{\partial}{\partial \theta}p(x|\theta)dx=1 Rn(θ^θ)p(xθ)dx=0θRn(θ^θ)p(xθ)dx=0Rnp(xθ)dx+Rn(θ^θ)θp(xθ)dx=0Rn(θ^θ)θp(xθ)dx=1

这里有一个小技巧,在后面的推导中会频繁用到: ∂ ∂ θ p ( x ∣ θ ) = ( ∂ ∂ θ l o g p ( x ∣ θ ) ) p ( x ∣ θ ) \frac{\partial}{\partial \theta}p(x|\theta)=(\frac{\partial}{\partial \theta}logp(x|\theta))p(x|\theta) θp(xθ)=(θlogp(xθ))p(xθ)

  • 接前面的推导: ⇒ ∫ R n ( θ ^ − θ ) ( ∂ ∂ θ l o g p ( x ∣ θ ) ) p ( x ∣ θ ) d x = 1 ⇒ E [ ( θ ^ − θ ) ∂ ∂ θ l o g p ( x ∣ θ ) ] = 1 \Rightarrow\int_{R^n}(\hat{\theta}-\theta)(\frac{\partial}{\partial \theta}logp(x|\theta))p(x|\theta)dx=1 \\ \Rightarrow E[(\hat{\theta}-\theta)\frac{\partial}{\partial \theta}logp(x|\theta)]=1 Rn(θ^θ)(θlogp(xθ))p(xθ)dx=1E[(θ^θ)θlogp(xθ)]=1

这里是最重要的一步,利用Cauchy-Schwarz inequality: ( E [ X Y ] ) 2 ≤ E [ X 2 ] E [ Y 2 ] (E[XY])^2\leq E[X^2]E[Y^2] (E[XY])2E[X2]E[Y2]

  • 我们得到: 1 ≤ E [ ( θ ^ − θ ) 2 ] E [ ( ∂ ∂ θ l o g p ( x ∣ θ ) ) 2 ] ⇒ E [ ( θ ^ − θ ) 2 ] ≥ 1 E [ ( ∂ ∂ θ l o g p ( x ∣ θ ) ) 2 ] 1\leq E[(\hat{\theta}-\theta)^2]E[(\frac{\partial}{\partial \theta}logp(x|\theta))^2] \\ \Rightarrow E[(\hat{\theta}-\theta)^2] \geq \frac{1}{E[(\frac{\partial}{\partial \theta}logp(x|\theta))^2]} 1E[(θ^θ)2]E[(θlogp(xθ))2]E[(θ^θ)2]E[(θlogp(xθ))2]1

这里的 E [ ( ∂ ∂ θ l o g p ( x ∣ θ ) ) 2 ] E[(\frac{\partial}{\partial \theta}logp(x|\theta))^2] E[(θlogp(xθ))2]被称为Fisher information(费雪信息),通过前面的推导,我们得到了这样的一个关系,即我们得到的估计量的均方误差不会小于Fisher information的倒数,即我们得到了MSE的下界。这个下界称为Cramer-Rao Lower Bound(CRLB)。他描述了无偏估计量能够取得的最小的误差,无论采用何种估计方法,都无法将误差降到比这个下界更低的值。

  • 前面推导过程中得到的Fisher information是关于 l o g p ( x ∣ θ ) logp(x|\theta) logp(xθ)的一阶偏导的形式。但是在实际计算的时候,一阶偏导的形式可能会比较复杂(参考前面的简单例子),因此能不能将Fisher information进一步写成关于 l o g p ( x ∣ θ ) logp(x|\theta) logp(xθ)的二阶偏导形式?
  • 我们有: ∫ R n p ( x ∣ θ ) d x = 1 \int_{R^n}p(x|\theta)dx=1 Rnp(xθ)dx=1
  • 求对等式两边求 θ \theta θ的一阶偏导,我们得到: ∂ ∂ θ ∫ R n p ( x ∣ θ ) d x = 0 ⇒ ∫ R n ( ∂ ∂ θ l o g p ( x ∣ θ ) ) p ( x ∣ θ ) d x = 0 \frac{\partial}{\partial \theta}\int_{R^n}p(x|\theta)dx=0 \\ \Rightarrow \int_{R^n}(\frac{\partial}{\partial \theta}logp(x|\theta))p(x|\theta)dx=0 θRnp(xθ)dx=0Rn(θlogp(xθ))p(xθ)dx=0
  • 进一步求二阶偏导,我们有: ∂ ∂ θ ∫ R n ( ∂ ∂ θ l o g p ( x ∣ θ ) ) p ( x ∣ θ ) d x = 0 \frac{\partial}{\partial \theta}\int_{R^n}(\frac{\partial}{\partial \theta}logp(x|\theta))p(x|\theta)dx=0 θRn(θlogp(xθ))p(xθ)dx=0
  • 利用函数乘积求导的方法,我们得到: ∫ R n ( ∂ 2 ∂ θ 2 l o g p ( x ∣ θ ) ) p ( x ∣ θ ) d x + ∫ R n ( ∂ ∂ θ l o g p ( x ∣ θ ) ) 2 p ( x ∣ θ ) d x = 0 \int_{R^n}(\frac{\partial^2}{\partial \theta^2}logp(x|\theta))p(x|\theta)dx + \int_{R^n}(\frac{\partial}{\partial \theta}logp(x|\theta))^2 p(x|\theta)dx=0 Rn(θ22logp(xθ))p(xθ)dx+Rn(θlogp(xθ))2p(xθ)dx=0
  • 最终我们得到了Fisher information关于概率模型二阶偏导的形式如下: E [ ( ∂ ∂ θ l o g p ( x ∣ θ ) ) 2 ] = − E [ ∂ 2 ∂ θ 2 l o g p ( x ∣ θ ) ) ] E[(\frac{\partial}{\partial \theta}logp(x|\theta))^2]=-E[\frac{\partial^2}{\partial \theta^2}logp(x|\theta))] E[(θlogp(xθ))2]=E[θ22logp(xθ))]
  • 于是CRLB可以写成: E [ ( θ ^ − θ ) 2 ] ≥ 1 − E [ ∂ 2 ∂ θ 2 l o g p ( x ∣ θ ) ) ] E[(\hat{\theta}-\theta)^2] \geq \frac{1}{-E[\frac{\partial^2}{\partial \theta^2}logp(x|\theta))]} E[(θ^θ)2]E[θ22logp(xθ))]1

CRLB for multiple parameters (vector)

前面我们考虑仅有一个参数需要估计的情况,下面将其推广至具有多个待估计参数的情形(矢量形式)

  • 同样的,假定我们有一组n个样本的数据 x = ( x 1 , x 2 , … , x n ) T x=(x_1,x_2,\ldots,x_n)^T x=(x1,x2,,xn)T,我们希望通过这组数据对 k k k个未知参数 θ = ( θ 1 , θ 2 , … , θ k ) T \theta = (\theta_1, \theta_2,\ldots,\theta_k)^T θ=(θ1,θ2,,θk)T进行估计,得到的估计为 θ ^ = ( θ ^ 1 ( x ) , θ ^ 2 ( x ) , … , θ ^ k ( x ) ) T \hat{\theta}=(\hat{\theta}_1(x), \hat{\theta}_2(x), \ldots,\hat{\theta}_k(x))^T θ^=(θ^1(x),θ^2(x),,θ^k(x))T 对于每个位置参数,我们同样考虑为无偏估计,即 E [ θ i ^ ] = θ i E[\hat{\theta_i}] = \theta_i E[θi^]=θi
  • 对于 k k k个估计值中的任何一个,其必须满足自身的CRLB,即 E [ ( θ ^ k − θ ) 2 ] ≥ 1 − E [ ∂ 2 ∂ θ k 2 l o g p ( x ∣ θ k ) ) ] E[(\hat{\theta}_k-\theta)^2] \geq \frac{1}{-E[\frac{\partial^2}{\partial \theta_k^2}logp(x|\theta_k))]} E[(θ^kθ)2]E[θk22logp(xθk))]1

但是仅仅对于单个参数考虑是不够的,我们还需要考虑各个参数之间的相互影响。

  • 我们定义相关矩阵(协方差矩阵)如下: C θ = E [ ( θ ^ − θ ) ( θ ^ − θ ) T ] C_\theta=E[(\hat{\theta}-\theta)(\hat{\theta}-\theta)^T] Cθ=E[(θ^θ)(θ^θ)T] 该矩阵一定是一个正定矩阵,即 C θ ≥ 0 C_\theta\geq0 Cθ0

关于正定矩阵的定义如下: A ∈ R n × n , A ≥ 0    ⟺    ∀ α ∈ R n , α T A α ≥ 0 A\in R^{n\times n}, A\geq 0 \iff \forall\alpha\in R^n,\alpha^TA\alpha\geq 0 ARn×n,A0αRn,αTAα0
证明 C θ C_\theta Cθ是正定的: ∀ α ∈ R k , α T C θ α = α T E [ ( θ ^ − θ ) ( θ ^ − θ ) T ] α = E [ α T ( θ ^ − θ ) ( θ ^ − θ ) T α ] = E [ ( α T ( θ ^ − θ ) ) 2 ] ≥ 0 \begin{aligned} \forall \alpha\in R^k, \alpha^TC_\theta\alpha&=\alpha^TE[(\hat{\theta}-\theta)(\hat{\theta}-\theta)^T]\alpha \\ &= E[\alpha^T(\hat{\theta}-\theta)(\hat{\theta}-\theta)^T\alpha] \\ &=E[(\alpha^T(\hat{\theta}-\theta))^2] \\&\geq 0\end{aligned} αRk,αTCθα=αTE[(θ^θ)(θ^θ)T]α=E[αT(θ^θ)(θ^θ)Tα]=E[(αT(θ^θ))2]0

  • 我们定义概率模型取对数之后关于 θ \theta θ的梯度向量为: ∇ θ l o g p ( x ∣ θ ) \nabla_\theta logp(x|\theta) θlogp(xθ),其中 ∇ θ = ( ∂ ∂ θ 1 , ∂ ∂ θ k , … , ∂ ∂ θ k ) T \nabla_\theta=(\frac{\partial}{\partial \theta_1}, \frac{\partial}{\partial \theta_k}, \ldots, \frac{\partial}{\partial \theta_k})^T θ=(θ1,θk,,θk)T
  • 我们定义Fisher Information Matrix(FIM)如下: F I M = E [ ( ∇ θ l o g p ( x ∣ θ ) ) ( ∇ θ l o g p ( x ∣ θ ) ) T ] FIM=E[(\nabla_\theta logp(x|\theta))(\nabla_\theta logp(x|\theta))^T] FIM=E[(θlogp(xθ))(θlogp(xθ))T] 同样的,FIM也是一个正定矩阵。

从前面单个参数的情况下我们得到了误差方差的下界是Fisher information的倒数。而在多个参数的情况下,误差方差变成了协方差矩阵 C θ C_\theta Cθ,而Fisher information也变成了FIM。因此参照单个参数的结论,我们很容易能够照猫画虎的得到多个参数下的结论: C θ ≥ F I M − 1 C_\theta \geq FIM^{-1} CθFIM1,这是一个很自然的推广,下面将对其进行相应的证明。

  • 我们想要证明 C θ ≥ F I M − 1 C_\theta \geq FIM^{-1} CθFIM1,也就是希望证明 C θ − F I M ≥ 0 C_\theta - FIM\geq0 CθFIM0,即证明矩阵 C θ − F I M C_\theta-FIM CθFIM是一个正定矩阵。
  • 我们首先定义一个新的向量: Y = ( θ 1 ^ − θ 1 , θ 2 ^ − θ 2 , … , θ k ^ − θ k , ∂ ∂ θ 1 l o g p ( x ∣ θ ) , ∂ ∂ θ 2 l o g p ( x ∣ θ ) , … , ∂ ∂ θ k l o g p ( x ∣ θ ) ) T = ( θ ^ − θ , ∇ θ l o g p ( x ∣ θ ) ) T \begin{aligned}Y&=(\hat{\theta_1}-\theta_1, \hat{\theta_2}-\theta_2, \ldots,\hat{\theta_k}-\theta_k, \frac{\partial}{\partial \theta_1}logp(x|\theta), \frac{\partial}{\partial \theta_2}logp(x|\theta), \ldots, \frac{\partial}{\partial \theta_k}logp(x|\theta))^T \\ &=(\hat{\theta}-\theta, \nabla_\theta logp(x|\theta))^T \end{aligned} Y=(θ1^θ1,θ2^θ2,,θk^θk,θ1logp(xθ),θ2logp(xθ),,θklogp(xθ))T=(θ^θ,θlogp(xθ))T
  • 计算该向量的相关矩阵: E [ Y Y T ] = E [ ( θ ^ − θ ∇ θ l o g p ( x ∣ θ ) ) ( ( θ ^ − θ ) T , ( ∇ θ l o g p ( x ∣ θ ) ) T ) ] = ( E [ ( θ ^ − θ ) ( θ ^ − θ ) T ] E [ ( θ ^ − θ ) ( ∇ θ l o g p ( x ∣ θ ) ) T ] E [ ( ∇ θ l o g p ( x ∣ θ ) ) ( θ ^ − θ ) T ] E [ ∇ θ l o g p ( x ∣ θ ) ( ∇ θ l o g p ( x ∣ θ ) ) T ] ) = ( C θ E [ ( θ ^ − θ ) ( ∇ θ l o g p ( x ∣ θ ) ) T ] E [ ( ∇ θ l o g p ( x ∣ θ ) ) ( θ ^ − θ ) T ] F I M ) \begin{aligned} E[YY^T]&=E[\bigl( \begin{matrix} \hat{\theta}-\theta \\ \nabla_\theta logp(x|\theta)\end{matrix}\bigr) ((\hat{\theta}-\theta)^T, (\nabla_\theta logp(x|\theta))^T)] \\ &= \bigl(\begin{matrix} E[(\hat{\theta}-\theta)(\hat{\theta}-\theta)^T] & E[(\hat{\theta}-\theta)(\nabla_\theta logp(x|\theta))^T] \\ E[(\nabla_\theta logp(x|\theta))(\hat{\theta}-\theta)^T] & E[\nabla_\theta logp(x|\theta)(\nabla_\theta logp(x|\theta))^T]\end{matrix} \bigr) \\ &=\bigl( \begin{matrix} C_\theta & E[(\hat{\theta}-\theta)(\nabla_\theta logp(x|\theta))^T] \\ E[(\nabla_\theta logp(x|\theta))(\hat{\theta}-\theta)^T] & FIM\end{matrix}\bigr) \end{aligned} E[YYT]=E[(θ^θθlogp(xθ))((θ^θ)T,(θlogp(xθ))T)]=(E[(θ^θ)(θ^θ)T]E[(θlogp(xθ))(θ^θ)T]E[(θ^θ)(θlogp(xθ))T]E[θlogp(xθ)(θlogp(xθ))T])=(CθE[(θlogp(xθ))(θ^θ)T]E[(θ^θ)(θlogp(xθ))T]FIM)
    同样的, E [ Y Y T ] E[YY^T] E[YYT]也是一个正定矩阵, 它的主对角线上的元素分别是 k k k个参数的相关矩阵以及FIM
  • 下面考虑非主对角线上的两个矩阵,以 E [ ( θ ^ − θ ) ( ∇ θ l o g p ( x ∣ θ ) ) T ] E[(\hat{\theta}-\theta)(\nabla_\theta logp(x|\theta))^T] E[(θ^θ)(θlogp(xθ))T]为例,考虑其第 i , j i,j i,j个元素: E [ ( θ i ^ − θ i ) ( ∂ ∂ θ j l o g p ( x ∣ θ ) ) ] = ∫ R n ( θ i ^ − θ i ) ( ∂ ∂ θ j l o g p ( x ∣ θ ) ) p ( x ∣ θ ) d x = ∫ R n ( θ i ^ − θ i ) ( ∂ ∂ θ j p ( x ∣ θ ) ) d x = ∫ R n θ i ^ ( ∂ ∂ θ j p ( x ∣ θ ) ) d x − ∫ R n θ i ( ∂ ∂ θ j p ( x ∣ θ ) ) d x = ∂ ∂ θ j ∫ R n θ i ^ p ( x ∣ θ ) ) d x − 0 = ∂ ∂ θ j E [ θ i ^ ] = ∂ ∂ θ j θ i = { 1 i f i = j 0 i f i ≠ j \begin{aligned}E[(\hat{\theta_i}-\theta_i)(\frac{\partial}{\partial \theta_j}logp(x|\theta))] &=\int_{R^n}(\hat{\theta_i}-\theta_i)(\frac{\partial}{\partial \theta_j}logp(x|\theta))p(x|\theta)dx \\ &= \int_{R^n}(\hat{\theta_i}-\theta_i)(\frac{\partial}{\partial \theta_j}p(x|\theta))dx \\ &= \int_{R^n}\hat{\theta_i}(\frac{\partial}{\partial \theta_j}p(x|\theta))dx -\int_{R^n}\theta_i(\frac{\partial}{\partial \theta_j}p(x|\theta))dx \\ &= \frac{\partial}{\partial \theta_j}\int_{R^n}\hat{\theta_i}p(x|\theta))dx-0\\ &= \frac{\partial}{\partial \theta_j}E[\hat{\theta_i}]\\&=\frac{\partial}{\partial \theta_j}\theta_i\\&=\left\{ \begin{matrix} 1 \qquad if \enspace i=j \\ 0 \qquad if \enspace i\neq j \end{matrix}\right. \end{aligned} E[(θi^θi)(θjlogp(xθ))]=Rn(θi^θi)(θjlogp(xθ))p(xθ)dx=Rn(θi^θi)(θjp(xθ))dx=Rnθi^(θjp(xθ))dxRnθi(θjp(xθ))dx=θjRnθi^p(xθ))dx0=θjE[θi^]=θjθi={1ifi=j0ifi=j

∫ R n θ i ( ∂ ∂ θ j p ( x ∣ θ ) ) d x = θ i ∂ ∂ θ j ∫ R n p ( x ∣ θ ) ) d x = θ i ∂ ∂ θ j 1 = 0 \begin{aligned}\int_{R^n}\theta_i(\frac{\partial}{\partial \theta_j}p(x|\theta))dx &= \theta_i\frac{\partial}{\partial \theta_j} \int_{R^n}p(x|\theta))dx \\&=\theta_i\frac{\partial}{\partial \theta_j}1 \\&=0 \end{aligned} Rnθi(θjp(xθ))dx=θiθjRnp(xθ))dx=θiθj1=0

  • 通过上述推导,我们可以得到结论: E [ ( θ ^ − θ ) ( ∇ θ l o g p ( x ∣ θ ) ) T ] E[(\hat{\theta}-\theta)(\nabla_\theta logp(x|\theta))^T] E[(θ^θ)(θlogp(xθ))T]是一个单位阵,而 E [ ( ∇ θ l o g p ( x ∣ θ ) ) ( θ ^ − θ ) T ] E[(\nabla_\theta logp(x|\theta))(\hat{\theta}-\theta)^T] E[(θlogp(xθ))(θ^θ)T]是其转置,故也是一个单位阵。
  • 因此 E [ Y Y T ] E[YY^T] E[YYT]变成了如下形式: E [ Y Y T ] = ( C θ I I F I M ) E[YY^T]=\bigl( \begin{matrix} C_\theta & I \\ I& FIM\end{matrix}\bigr) E[YYT]=(CθIIFIM)
  • 通过Schur-Complement,我们可以得到: ( I − F I M − 1 0 I ) ( C θ I I F I M ) ( I 0 − F I M − 1 I ) = ( C θ − F I M − 1 0 0 F I M ) ≥ 0 \bigl( \begin{matrix} I & -FIM^{-1} \\ 0& I\end{matrix}\bigr) \bigl( \begin{matrix} C_\theta & I \\ I& FIM\end{matrix}\bigr)\bigl( \begin{matrix} I & 0\\ -FIM^{-1}& I\end{matrix}\bigr) = \bigl( \begin{matrix} C_\theta-FIM^{-1} & 0 \\ 0& FIM\end{matrix}\bigr) \geq0 (I0FIM1I)(CθIIFIM)(IFIM10I)=(CθFIM100FIM)0

这里需要证明当 A ≥ 0 A\geq 0 A0时,对任意矩阵 B B B, 有 B T A B ≥ 0 B^TAB \geq 0 BTAB0 ∀ α , α T B T A B α = ( B α ) T A ( B α ) = β T A β ≥ 0 \forall \alpha, \alpha^TB^TAB\alpha=(B\alpha)^TA(B\alpha)=\beta^TA\beta\geq 0 α,αTBTABα=(Bα)TA(Bα)=βTAβ0

  • 由于该矩阵是一个分块对角阵,其为正定矩阵的充要条件是对角线上的矩阵都是正定的,因此我们得到: C θ − F I M − 1 ≥ 0 C_\theta-FIM^{-1}\geq 0 CθFIM10 ,证明完毕。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值