实高斯矢量参数与复高斯矢量参数的Fisher Information Matrix推导

前言

上一篇文章中,我对Cramer-Rao Lower Bound在单个参数以及矢量参数这两种不同的情况下分别进行了推导。对于矢量参数而言,CRLB表述为: C θ ≥ F I M − 1 C_\theta \geq FIM^{-1} CθFIM1。在本文中,将对FIM分别在实数矢量以及复数矢量下的形式进行推导。

实高斯矢量参数的FIM

  • 假定我们有一组数据集 X = ( x 1 , x 2 , … , x n ) X=(x_1,x_2,\ldots,x_n) X=(x1,x2,,xn),我们希望通过某种估计方法对 k k k个参数 θ = ( θ 1 , θ 2 , … , θ k ) \theta=(\theta_1, \theta_2, \ldots,\theta_k) θ=(θ1,θ2,,θk)进行估计。
  • 对于数据集中的每一个样本,都是一个实高斯随机变量,那么对于矢量 X X X: X ∼ N ( μ ( θ ) , C ( θ ) ) X\sim N(\mu(\theta),C(\theta)) XN(μ(θ),C(θ)),具有概率密度: p ( X ∣ θ ) = 1 ( 2 π ) n 2 [ d e t ( C ( θ ) ) ] 1 2 e x p ( − 1 2 ( X − μ ( θ ) ) T C ( θ ) − 1 ( X − μ ( θ ) ) ) p(X|\theta)=\frac{1}{(2\pi)^{\frac{n}{2}}[det(C(\theta))]^{\frac{1}{2}}}exp(-\frac{1}{2}(X-\mu(\theta))^TC(\theta)^{-1}(X-\mu(\theta))) p(Xθ)=(2π)2n[det(C(θ))]211exp(21(Xμ(θ))TC(θ)1(Xμ(θ)))

出于书写方便清晰,后面的推导我将 μ ( θ ) \mu(\theta) μ(θ) C ( θ ) C(\theta) C(θ)简写为 μ \mu μ以及 C C C,请不要忘了他们是参数矢量 θ \theta θ的函数

  • 对概率密度取对数后求一阶偏导,我们得到: l o g p ( X ∣ θ ) = − n 2 l o g ( 2 π ) − 1 2 l o g ( d e t ( C ) ) − 1 2 ( X − μ ) T C − 1 ( X − μ ) ∂ l o g p ( X ∣ θ ) ∂ θ i = 0 − 1 2 t r ( C − 1 ∂ C ∂ θ i ) + 1 2 ∂ μ T ∂ θ i C − 1 ( X − μ ) − 1 2 ( X − μ ) T ∂ C − 1 ( X − μ ) ∂ θ i logp(X|\theta)=-\frac{n}{2}log(2\pi)-\frac{1}{2}log(det(C))-\frac{1}{2}(X-\mu)^TC^{-1}(X-\mu) \\ \frac{\partial logp(X|\theta)}{\partial \theta_i}=0-\frac{1}{2}tr\bigl(C^{-1}\frac{\partial C}{\partial \theta_i}\bigr)+\frac{1}{2}\frac{\partial \mu^T}{\partial \theta_i}C^{-1}(X-\mu)-\frac{1}{2}(X-\mu)^T\frac{\partial C^{-1}(X-\mu)}{\partial \theta_i} logp(Xθ)=2nlog(2π)21log(det(C))21(Xμ)TC1(Xμ)θilogp(Xθ)=021tr(C1θiC)+21θiμTC1(Xμ)21(Xμ)TθiC1(Xμ)

这里我们用到了矩阵的行列式求导,下面对其进行推导:

  • ∂ ∣ C ∣ ∂ θ = ∑ j ∑ i ∂ ∣ C ∣ ∂ c i j ∂ c i j ∂ θ \frac{\partial |C|}{\partial \theta}=\sum_{j}\sum_i\frac{\partial |C|}{\partial c_{ij}}\frac{\partial c_{ij}}{\partial \theta} θC=jicijCθcij
  • 由于 ∣ C ∣ = ∑ i = 1 n c i j M i j |C|=\sum_{i=1}^nc_{ij}M_{ij} C=i=1ncijMij其中 M i j M_{ij} Mij为代数余子式,故 ∂ ∣ C ∣ ∂ c i j = M i j \frac{\partial |C|}{\partial c_{ij}}=M_{ij} cijC=Mij
  • 因此 ∂ ∣ C ∣ ∂ θ i = ∣ C ∣ ∑ j ∑ i M i j ∣ C ∣ ∂ c i j ∂ θ \frac{\partial |C|}{\partial \theta_i}=|C|\sum_{j}\sum_i\frac{M_{ij}}{|C|}\frac{\partial c_{ij}}{\partial \theta} θiC=CjiCMijθcij
  • 由逆矩阵的知识我们知道: M i j ∣ C ∣ = C j i − 1 \frac{M_{ij}}{|C|}=C^{-1}_{ji} CMij=Cji1,而 ∂ c i j ∂ θ \frac{\partial c_{ij}}{\partial \theta} θcij ∂ C ∂ θ \frac{\partial C}{\partial \theta} θC的第 ( i , j ) (i,j) (i,j)个元素,因此第一个对于 i i i的求和相当于是计算矩阵乘法的某一项,即: ∂ ∣ C ∣ ∂ θ i = ∣ C ∣ ∑ j ( C − 1 ∂ C ∂ θ ) j j \frac{\partial |C|}{\partial \theta_i}=|C|\sum_j(C^{-1}\frac{\partial C}{\partial \theta})_{jj} θiC=Cj(C1θC)jj
  • 对于第二个对 j j j求和,可以看成是求该矩阵的迹,于是 ∂ ∣ C ∣ ∂ θ = ∣ C ∣ t r ( C − 1 ∂ C ∂ θ ) \frac{\partial |C|}{\partial \theta}=|C|tr(C^{-1}\frac{\partial C}{\partial \theta}) θC=Ctr(C1θC)
  • 对于第二个等式的最后一项,我们有: ∂ C − 1 ( X − μ ) ∂ θ i = − C − 1 ∂ C ∂ θ i C − 1 ( X − μ ) − C − 1 ∂ μ ∂ θ i \frac{\partial C^{-1}(X-\mu)}{\partial \theta_i}=-C^{-1}\frac{\partial C}{\partial \theta_i}C^{-1}(X-\mu)-C^{-1}\frac{\partial \mu}{\partial \theta_i} θiC1(Xμ)=C1θiCC1(Xμ)C1θiμ
  • 于是我们得到: ∂ l o g p ( X ∣ θ ) ∂ θ i = − 1 2 t r ( C − 1 ∂ C ∂ θ i ) + 1 2 ∂ μ T ∂ θ i C − 1 ( X − μ ) + 1 2 ( X − μ ) T C − 1 ∂ C ∂ θ i C − 1 ( X − μ ) + 1 2 ( X − μ ) T C − 1 ∂ μ ∂ θ i \frac{\partial logp(X|\theta)}{\partial \theta_i}=-\frac{1}{2}tr\bigl(C^{-1}\frac{\partial C}{\partial \theta_i}\bigr)+\frac{1}{2}\frac{\partial \mu^T}{\partial \theta_i}C^{-1}(X-\mu)+\frac{1}{2}(X-\mu)^TC^{-1}\frac{\partial C}{\partial \theta_i}C^{-1}(X-\mu)+\frac{1}{2}(X-\mu)^TC^{-1}\frac{\partial \mu}{\partial \theta_i} θilogp(Xθ)=21tr(C1θiC)+21θiμTC1(Xμ)+21(Xμ)TC1θiCC1(Xμ)+21(Xμ)TC1θiμ

这里我们用到了逆矩阵的导数,下面对其进行推导:

  • 由于 C C − 1 = I CC^{-1}=I CC1=I,两边同时求导,得到: ∂ C ∂ θ C − 1 + C ∂ C − 1 ∂ θ = 0 \frac{\partial C}{\partial \theta}C^{-1}+C\frac{\partial C^{-1}}{\partial \theta}=0 θCC1+CθC1=0
  • 于是很轻易的我们就得到: ∂ C − 1 ∂ θ = − C − 1 ∂ C ∂ θ C − 1 \frac{\partial C^{-1}}{\partial \theta}=-C^{-1}\frac{\partial C}{\partial \theta}C^{-1} θC1=C1θCC1
  • 注意到: 1 2 ( X − μ ) T C − 1 ∂ μ ∂ θ i = 1 2 ∂ μ T ∂ θ i C − 1 ( X − μ ) \frac{1}{2}(X-\mu)^TC^{-1}\frac{\partial \mu}{\partial \theta_i}=\frac{1}{2}\frac{\partial \mu^T}{\partial \theta_i}C^{-1}(X-\mu) 21(Xμ)TC1θiμ=21θiμTC1(Xμ)
  • 于是偏导数可以简化为: ∂ l o g p ( X ∣ θ ) ∂ θ i = − 1 2 t r ( C − 1 ∂ C ∂ θ i ) + ∂ μ T ∂ θ i C − 1 ( X − μ ) + 1 2 ( X − μ ) T C − 1 ∂ C ∂ θ i C − 1 ( X − μ ) \frac{\partial logp(X|\theta)}{\partial \theta_i}=-\frac{1}{2}tr\bigl(C^{-1}\frac{\partial C}{\partial \theta_i}\bigr)+\frac{\partial \mu^T}{\partial \theta_i}C^{-1}(X-\mu)+\frac{1}{2}(X-\mu)^TC^{-1}\frac{\partial C}{\partial \theta_i}C^{-1}(X-\mu) θilogp(Xθ)=21tr(C1θiC)+θiμTC1(Xμ)+21(Xμ)TC1θiCC1(Xμ)
  • 由Fisher Information Matrix的定义,对于其第 ( i , j ) (i,j) (i,j)个元素,其表达式为: F i j = E [ ∂ l o g p ( X ∣ θ ) ∂ θ i ∂ l o g p ( X ∣ θ ) ∂ θ j ] = E { [ − 1 2 t r ( C − 1 ∂ C ∂ θ i ) + ∂ μ T ∂ θ i C − 1 ( X − μ ) + 1 2 ( X − μ ) T C − 1 ∂ C ∂ θ i C − 1 ( X − μ ) ] ⋅ [ − 1 2 t r ( C − 1 ∂ C ∂ θ j ) + ∂ μ T ∂ θ j C − 1 ( X − μ ) + 1 2 ( X − μ ) T C − 1 ∂ C ∂ θ j C − 1 ( X − μ ) ] } \begin{aligned} F_{ij}&=E[\frac{\partial logp(X|\theta)}{\partial \theta_i}\frac{\partial logp(X|\theta)}{\partial \theta_j}] \\ &=E \left\{\Big [-\frac{1}{2}tr\bigl(C^{-1}\frac{\partial C}{\partial \theta_i}\bigr)+\frac{\partial \mu^T}{\partial \theta_i}C^{-1}(X-\mu)+\frac{1}{2}(X-\mu)^TC^{-1}\frac{\partial C}{\partial \theta_i}C^{-1}(X-\mu)\Big] \cdot \Big [-\frac{1}{2}tr\bigl(C^{-1}\frac{\partial C}{\partial \theta_j}\bigr)+\frac{\partial \mu^T}{\partial \theta_j}C^{-1}(X-\mu)+\frac{1}{2}(X-\mu)^TC^{-1}\frac{\partial C}{\partial \theta_j}C^{-1}(X-\mu)\Big]\Bigg\}\right. \end{aligned} Fij=E[θilogp(Xθ)θjlogp(Xθ)]=E{[21tr(C1θiC)+θiμTC1(Xμ)+21(Xμ)TC1θiCC1(Xμ)][21tr(C1θjC)+θjμTC1(Xμ)+21(Xμ)TC1θjCC1(Xμ)]}

这个式子乘出来有9项,是不是感觉很吓人?别怕,It just some notations。让我们来一项一项看看(顺序为乘法左侧的第一项分别与右侧的三项轮流,然后是左侧第二项,以此类推)。为了方便推导,我们记 y = X − μ y=X-\mu y=Xμ

  • 第一项是 E [ − 1 2 t r ( C − 1 ∂ C ∂ θ i ) × − 1 2 t r ( C − 1 ∂ C ∂ θ j ) ] E[-\frac{1}{2}tr\bigl(C^{-1}\frac{\partial C}{\partial \theta_i}\bigr) \times -\frac{1}{2}tr\bigl(C^{-1}\frac{\partial C}{\partial \theta_j}\bigr)] E[21tr(C1θiC)×21tr(C1θjC)],常数项,没啥好说的
  • 第二项是 E [ − 1 2 t r ( C − 1 ∂ C ∂ θ i ) × ∂ μ T ∂ θ j C − 1 y ] E[-\frac{1}{2}tr\bigl(C^{-1}\frac{\partial C}{\partial \theta_i}\bigr) \times \frac{\partial \mu^T}{\partial \theta_j}C^{-1}y] E[21tr(C1θiC)×θjμTC1y],由于此项为 y y y的一阶矩,故为0
  • 第三项是 E [ − 1 2 t r ( C − 1 ∂ C ∂ θ i ) × 1 2 y T C − 1 ∂ C ∂ θ j C − 1 y ] E[-\frac{1}{2}tr\bigl(C^{-1}\frac{\partial C}{\partial \theta_i}\bigr)\times\frac{1}{2}y^TC^{-1}\frac{\partial C}{\partial \theta_j}C^{-1}y] E[21tr(C1θiC)×21yTC1θjCC1y],这一项稍微复杂一些。我们知道 E ( Y T X ) = t r ( E ( X Y T ) ) E(Y^TX)=tr(E(XY^T)) E(YTX)=tr(E(XYT)),因此该项可以变换为 − 1 4 t r ( C − 1 ∂ C ∂ θ i ) t r ( C − 1 ∂ C ∂ θ j C − 1 E [ y y T ] ) = − 1 4 t r ( C − 1 ∂ C ∂ θ i ) t r ( C − 1 ∂ C ∂ θ j ) -\frac{1}{4}tr\bigl(C^{-1}\frac{\partial C}{\partial \theta_i}\bigr)tr(C^{-1}\frac{\partial C}{\partial \theta_j}C^{-1}E[yy^T])=-\frac{1}{4}tr\bigl(C^{-1}\frac{\partial C}{\partial \theta_i}\bigr)tr(C^{-1}\frac{\partial C}{\partial \theta_j}) 41tr(C1θiC)tr(C1θjCC1E[yyT])=41tr(C1θiC)tr(C1θjC)
  • 第四项与第二项一样为 y y y的一阶矩,故为0
  • 第五项为: E [ ∂ μ T ∂ θ i C − 1 y ∂ μ T ∂ θ j C − 1 y ] = E [ ∂ μ T ∂ θ i C − 1 y [ ∂ μ T ∂ θ j C − 1 y ] T ] = ∂ μ T ∂ θ i C − 1 E [ y y T ] C − 1 ∂ μ ∂ θ j = ∂ μ T ∂ θ i C − 1 ∂ μ ∂ θ j \begin{aligned} E\Big[\frac{\partial \mu^T}{\partial \theta_i}C^{-1}y\frac{\partial \mu^T}{\partial \theta_j}C^{-1}y\Big] &= E\Big[\frac{\partial \mu^T}{\partial \theta_i}C^{-1}y[\frac{\partial \mu^T}{\partial \theta_j}C^{-1}y]^T\Big] \\ &= \frac{\partial \mu^T}{\partial \theta_i}C^{-1}E\Big[yy^T\Big]C^{-1}\frac{\partial \mu}{\partial \theta_j} \\ &= \frac{\partial \mu^T}{\partial \theta_i}C^{-1}\frac{\partial \mu}{\partial \theta_j} \end{aligned} E[θiμTC1yθjμTC1y]=E[θiμTC1y[θjμTC1y]T]=θiμTC1E[yyT]C1θjμ=θiμTC1θjμ
  • 第六项为 y y y的三阶矩,故也为0
  • 第七项与第三项一模一样,为 − 1 4 t r ( C − 1 ∂ C ∂ θ i ) t r ( C − 1 ∂ C ∂ θ j ) -\frac{1}{4}tr\bigl(C^{-1}\frac{\partial C}{\partial \theta_i}\bigr)tr(C^{-1}\frac{\partial C}{\partial \theta_j}) 41tr(C1θiC)tr(C1θjC)
  • 第八项为 y y y的三阶矩,故也为0
  • 第九项为 1 4 E [ y T C − 1 ∂ C ∂ θ i C − 1 y y T C − 1 ∂ C ∂ θ j C − 1 y ] \frac{1}{4}E\Big[y^TC^{-1}\frac{\partial C}{\partial \theta_i}C^{-1}yy^TC^{-1}\frac{\partial C}{\partial \theta_j}C^{-1}y\Big] 41E[yTC1θiCC1yyTC1θjCC1y]。这里需要使用一个引理,这里不加证明的给出: E [ y T A y y T B y ] = t r ( A C ) t r ( B C ) + 2 ⋅ t r ( A C B C ) E[y^TAyy^TBy]=tr(AC)tr(BC)+2\cdot tr(ACBC) E[yTAyyTBy]=tr(AC)tr(BC)+2tr(ACBC),要求A与B为对称矩阵。通过这个引理,我们将第九项变换为: 1 4 [ t r ( C − 1 ∂ C ∂ θ i C − 1 C ) t r ( C − 1 ∂ C ∂ θ j C − 1 C ) + t r ( C − 1 ∂ C ∂ θ i C − 1 C C − 1 ∂ C ∂ θ j C − 1 C ) ] = 1 4 [ t r ( C − 1 ∂ C ∂ θ i ) t r ( C − 1 ∂ C ∂ θ j ) + 2 ⋅ t r ( C − 1 ∂ C ∂ θ i C − 1 ∂ C ∂ θ j ) ] \frac{1}{4}\Big[tr(C^{-1}\frac{\partial C}{\partial \theta_i}C^{-1}C)tr(C^{-1}\frac{\partial C}{\partial \theta_j}C^{-1}C)+ tr(C^{-1}\frac{\partial C}{\partial \theta_i}C^{-1}CC^{-1}\frac{\partial C}{\partial \theta_j}C^{-1}C)\Big]=\frac{1}{4}\Big[ tr(C^{-1}\frac{\partial C}{\partial \theta_i})tr(C^{-1}\frac{\partial C}{\partial \theta_j}) + 2\cdot tr(C^{-1}\frac{\partial C}{\partial \theta_i}C^{-1}\frac{\partial C}{\partial \theta_j})\Big] 41[tr(C1θiCC1C)tr(C1θjCC1C)+tr(C1θiCC1CC1θjCC1C)]=41[tr(C1θiC)tr(C1θjC)+2tr(C1θiCC1θjC)]
  • 于是我们最终得到: F i j = 1 4 t r ( C − 1 ∂ C ∂ θ i ) t r ( C − 1 ∂ C ∂ θ j ) − 1 4 t r ( C − 1 ∂ C ∂ θ i ) t r ( C − 1 ∂ C ∂ θ j ) + ∂ μ T ∂ θ i C − 1 ∂ μ ∂ θ j − 1 4 t r ( C − 1 ∂ C ∂ θ i ) t r ( C − 1 ∂ C ∂ θ j ) + 1 4 [ t r ( C − 1 ∂ C ∂ θ i ) t r ( C − 1 ∂ C ∂ θ j ) + 2 × t r ( C − 1 ∂ C ∂ θ i C − 1 ∂ C ∂ θ j ) ] = ∂ μ T ∂ θ i C − 1 ∂ μ ∂ θ j + 1 2 ⋅ t r ( C − 1 ∂ C ∂ θ i C − 1 ∂ C ∂ θ j ) \begin{aligned} F_{ij} &= \frac{1}{4}tr\bigl(C^{-1}\frac{\partial C}{\partial \theta_i}\bigr)tr(C^{-1}\frac{\partial C}{\partial \theta_j})-\frac{1}{4}tr\bigl(C^{-1}\frac{\partial C}{\partial \theta_i}\bigr)tr(C^{-1}\frac{\partial C}{\partial \theta_j})+\frac{\partial \mu^T}{\partial \theta_i}C^{-1}\frac{\partial \mu}{\partial \theta_j}-\frac{1}{4}tr\bigl(C^{-1}\frac{\partial C}{\partial \theta_i}\bigr)tr(C^{-1}\frac{\partial C}{\partial \theta_j})+\frac{1}{4}\Big[ tr(C^{-1}\frac{\partial C}{\partial \theta_i})tr(C^{-1}\frac{\partial C}{\partial \theta_j}) + 2\times tr(C^{-1}\frac{\partial C}{\partial \theta_i}C^{-1}\frac{\partial C}{\partial \theta_j})\Big] \\ &= \frac{\partial \mu^T}{\partial \theta_i}C^{-1}\frac{\partial \mu}{\partial \theta_j} + \frac{1}{2}\cdot tr(C^{-1}\frac{\partial C}{\partial \theta_i}C^{-1}\frac{\partial C}{\partial \theta_j})\end{aligned} Fij=41tr(C1θiC)tr(C1θjC)41tr(C1θiC)tr(C1θjC)+θiμTC1θjμ41tr(C1θiC)tr(C1θjC)+41[tr(C1θiC)tr(C1θjC)+2×tr(C1θiCC1θjC)]=θiμTC1θjμ+21tr(C1θiCC1θjC)

复高斯矢量参数的FIM

  • 假定我们有一组数据集 X ~ = ( x ~ 1 , x ~ 2 , … , x ~ n ) \widetilde{X}=(\widetilde{x}_1,\widetilde{x}_2,\ldots,\widetilde{x}_n) X =(x 1,x 2,,x n),我们希望通过某种估计方法对 k k k个参数 θ = ( θ 1 , θ 2 , … , θ k ) \theta=(\theta_1, \theta_2, \ldots,\theta_k) θ=(θ1,θ2,,θk)进行估计。

对于这 k k k个参数,既可以是复数参数也可以是实数参数。我们都知道,对于复数可以以实部和虚部进行表示,因此一个复数参数可以写成两个实数参数。因此为了不产生混淆,后续所有的 θ \theta θ均为实数参数矢量。

  • 对于数据集中的每一个样本,都是一个复高斯随机变量,那么对于矢量 X ~ \widetilde{X} X : X ~ ∼ N ( μ ~ ( θ ) , C ~ ( θ ) ) \widetilde{X}\sim N(\widetilde{\mu}(\theta),\widetilde{C}(\theta)) X N(μ (θ),C (θ)),具有概率密度: p ( X ~ ∣ θ ) = 1 π n d e t C ~ ( θ ) e x p ( − ( X ~ − μ ~ ( θ ) ) H C ~ − 1 ( θ ) ( X ~ − μ ~ ( θ ) ) ) p(\widetilde{X}|\theta)=\frac{1}{\pi^n det\widetilde{C}(\theta)}exp\Big(-(\widetilde{X}-\widetilde{\mu}(\theta))^H\widetilde{C}^{-1}(\theta)(\widetilde{X}-\widetilde{\mu}(\theta))\Big) p(X θ)=πndetC (θ)1exp((X μ (θ))HC 1(θ)(X μ (θ)))

出于书写方便清晰,后面的推导我将 μ ~ ( θ ) \widetilde{\mu}(\theta) μ (θ) C ~ ( θ ) \widetilde{C}(\theta) C (θ)简写为 μ ~ \widetilde{\mu} μ 以及 C ~ \widetilde{C} C ,请不要忘了他们是参数矢量 θ \theta θ的函数

  • 对概率密度取对数,我们得到: l o g p ( X ~ ∣ θ ) = − n l o g ( π ) − l o g ( d e t ( C ~ ) ) − ( X ~ − μ ~ ) H C ~ − 1 ( X ~ − μ ~ ) logp(\widetilde{X}|\theta)=-nlog(\pi)-log(det(\widetilde{C}))-(\widetilde{X}-\widetilde{\mu})^H\widetilde{C}^{-1}(\widetilde{X}-\widetilde{\mu}) logp(X θ)=nlog(π)log(det(C ))(X μ )HC 1(X μ )
  • 进一步求一阶偏导,我们得到: ∂ l o g p ( X ~ ∣ θ ) ∂ θ i = − t r ( C ~ − 1 ∂ C ~ ∂ θ i ) + ∂ μ ~ H ∂ θ i C ~ − 1 ( X ~ − μ ~ ) − ( X ~ − μ ~ ) H ∂ C ~ − 1 ( X ~ − μ ~ ) ∂ θ i \frac{\partial logp(\widetilde{X}|\theta)}{\partial \theta_i}=-tr\Big(\widetilde{C}^{-1}\frac{\partial \widetilde{C}}{\partial \theta_i}\Big)+\frac{\partial \widetilde{\mu}^H}{\partial \theta_i}\widetilde{C}^{-1}(\widetilde{X}-\widetilde{\mu})-(\widetilde{X}-\widetilde{\mu})^H\frac{\partial \widetilde{C}^{-1}(\widetilde{X}-\widetilde{\mu})}{\partial \theta_i} θilogp(X θ)=tr(C 1θiC )+θiμ HC 1(X μ )(X μ )HθiC 1(X μ )
  • 对于上式的最后一项,我们进一步拆开: ∂ C ~ − 1 ( X ~ − μ ~ ) ∂ θ i = − C ~ − 1 ∂ C ~ ∂ θ i C ~ − 1 ( X ~ − μ ~ ) − C ~ − 1 ∂ μ ~ ∂ θ i \frac{\partial \widetilde{C}^{-1}(\widetilde{X}-\widetilde{\mu})}{\partial \theta_i}=-\widetilde{C}^{-1}\frac{\partial \widetilde{C}}{\partial \theta_i}\widetilde{C}^{-1}(\widetilde{X}-\widetilde{\mu})-\widetilde{C}^{-1}\frac{\partial \widetilde{\mu}}{\partial\theta_i} θiC 1(X μ )=C 1θiC C 1(X μ )C 1θiμ
  • 最终我们得到如下结果: ∂ l o g p ( X ~ ∣ θ ) ∂ θ i = − t r ( C ~ − 1 ∂ C ~ ∂ θ i ) + ∂ μ ~ H ∂ θ i C ~ − 1 ( X ~ − μ ~ ) + ( X ~ − μ ~ ) H C ~ − 1 ∂ μ ~ ∂ θ i + ( X ~ − μ ~ ) H C ~ − 1 ∂ C ~ ∂ θ i C ~ − 1 ( X ~ − μ ~ ) \frac{\partial logp(\widetilde{X}|\theta)}{\partial \theta_i}=-tr\Big(\widetilde{C}^{-1}\frac{\partial \widetilde{C}}{\partial \theta_i}\Big)+\frac{\partial \widetilde{\mu}^H}{\partial \theta_i}\widetilde{C}^{-1}(\widetilde{X}-\widetilde{\mu})+(\widetilde{X}-\widetilde{\mu})^H\widetilde{C}^{-1}\frac{\partial \widetilde{\mu}}{\partial\theta_i}+(\widetilde{X}-\widetilde{\mu})^H\widetilde{C}^{-1}\frac{\partial \widetilde{C}}{\partial \theta_i}\widetilde{C}^{-1}(\widetilde{X}-\widetilde{\mu}) θilogp(X θ)=tr(C 1θiC )+θiμ HC 1(X μ )+(X μ )HC 1θiμ +(X μ )HC 1θiC C 1(X μ )

在推导一阶偏导的时候,我们同样用到了矩阵行列式的导数以及矩阵的逆的导数,在实高斯部分已经讲过了,这里就不再赘述。

  • 由Fisher Information Matrix的定义,对于其第 ( i , j ) (i,j) (i,j)个元素,其表达式为: F i j = E [ ∂ l o g p ( X ~ ∣ θ ) ∂ θ i ∂ l o g p ( X ~ ∣ θ ) ∂ θ j ] = E { [ − t r ( C ~ − 1 ∂ C ~ ∂ θ i ) + ∂ μ ~ H ∂ θ i C ~ − 1 ( X ~ − μ ~ ) + ( X ~ − μ ~ ) H C ~ − 1 ∂ μ ~ ∂ θ i + ( X ~ − μ ~ ) H C ~ − 1 ∂ C ~ ∂ θ i C ~ − 1 ( X ~ − μ ~ ) ] ⋅ [ − t r ( C ~ − 1 ∂ C ~ ∂ θ j ) + ∂ μ ~ H ∂ θ j C ~ − 1 ( X ~ − μ ~ ) + ( X ~ − μ ~ ) H C ~ − 1 ∂ μ ~ ∂ θ j + ( X ~ − μ ~ ) H C ~ − 1 ∂ C ~ ∂ θ j C ~ − 1 ( X ~ − μ ~ ) ] } \begin{aligned} F_{ij}&=E\Big[\frac{\partial logp(\widetilde{X}|\theta)}{\partial \theta_i}\frac{\partial logp(\widetilde{X}|\theta)}{\partial \theta_j}\Big] \\ &= E\left\{ \Bigg[ -tr\Big(\widetilde{C}^{-1}\frac{\partial \widetilde{C}}{\partial \theta_i}\Big)+\frac{\partial \widetilde{\mu}^H}{\partial \theta_i}\widetilde{C}^{-1}(\widetilde{X}-\widetilde{\mu})+(\widetilde{X}-\widetilde{\mu})^H\widetilde{C}^{-1}\frac{\partial \widetilde{\mu}}{\partial\theta_i}+(\widetilde{X}-\widetilde{\mu})^H\widetilde{C}^{-1}\frac{\partial \widetilde{C}}{\partial \theta_i}\widetilde{C}^{-1}(\widetilde{X}-\widetilde{\mu})\Bigg] \cdot \Bigg[ -tr\Big(\widetilde{C}^{-1}\frac{\partial \widetilde{C}}{\partial \theta_j}\Big)+\frac{\partial \widetilde{\mu}^H}{\partial \theta_j}\widetilde{C}^{-1}(\widetilde{X}-\widetilde{\mu})+(\widetilde{X}-\widetilde{\mu})^H\widetilde{C}^{-1}\frac{\partial \widetilde{\mu}}{\partial\theta_j}+(\widetilde{X}-\widetilde{\mu})^H\widetilde{C}^{-1}\frac{\partial \widetilde{C}}{\partial \theta_j}\widetilde{C}^{-1}(\widetilde{X}-\widetilde{\mu})\Bigg] \Bigg\}\right. \end{aligned} Fij=E[θilogp(X θ)θjlogp(X θ)]=E{[tr(C 1θiC )+θiμ HC 1(X μ )+(X μ )HC 1θiμ +(X μ )HC 1θiC C 1(X μ )][tr(C 1θjC )+θjμ HC 1(X μ )+(X μ )HC 1θjμ +(X μ )HC 1θjC C 1(X μ )]}

好家伙,乘出来足足16项!不过在实高斯部分我们已经看到了,是有很多部分是0,可以直接消去的。在这里我们记 y ~ = X ~ − μ ~ \widetilde{y}=\widetilde{X}-\widetilde{\mu} y =X μ ,这里我们不再对每一项进行推导,仅给出在简化过程中会用到的一些点。

  • 我们知道,关于 y ~ \widetilde{y} y 的一阶矩和3阶矩均为0。
  • 同样的,我们需要使用 E [ y H y ] = t r ( E [ y y H ] ) E[y^Hy]=tr(E[yy^H]) E[yHy]=tr(E[yyH])
  • 在实高斯情况下第九项中用到的引理在这里还需要再次使用,只不过形式稍有改变: E [ y H A y y H B y ] = t r ( A C ) t r ( B C ) + t r ( A C B C ) E[y^HAyy^HBy]=tr(AC)tr(BC)+tr(ACBC) E[yHAyyHBy]=tr(AC)tr(BC)+tr(ACBC),同样要求A与B为对称矩阵。
  • 还有一个与实高斯情况下有所不同,那就是这里我们的 C ~ = E [ y ~ y ~ H ] \widetilde{C}=E[\widetilde{y}\widetilde{y}^H] C =E[y y H],而 E [ y ~ y ~ T ] = 0 E[\widetilde{y}\widetilde{y}^T]=0 E[y y T]=0,并以此可以推出 E [ y ~ ∗ y ~ H ] = ( E [ y ~ y ~ T ] ) ∗ = 0 E[\widetilde{y}^*\widetilde{y}^H]=(E[\widetilde{y}\widetilde{y}^T])^*=0 E[y y H]=(E[y y T])=0
  • 在这里我不道德的要求各位自己对这16项进行简化,我仅给出简化后的结果: F i j = t r ( C ~ − 1 ∂ C ~ ∂ θ i ) t r ( C ~ − 1 ∂ C ~ ∂ θ i ) − t r ( C ~ − 1 ∂ C ~ ∂ θ i ) t r ( C ~ − 1 ∂ C ~ ∂ θ i ) − t r ( C ~ − 1 ∂ C ~ ∂ θ i ) t r ( C ~ − 1 ∂ C ~ ∂ θ i ) + ∂ μ ~ H ∂ θ i C ~ − 1 ∂ μ ~ ∂ θ j + ∂ μ ~ H ∂ θ j C ~ − 1 ∂ μ ~ ∂ θ i + t r ( C ~ − 1 ∂ C ~ ∂ θ i ) t r ( C ~ − 1 ∂ C ~ ∂ θ i ) + t r ( C ~ − 1 ∂ C ~ ∂ θ i C ~ − 1 ∂ C ~ ∂ θ j ) F_{ij}=tr\Big(\widetilde{C}^{-1}\frac{\partial \widetilde{C}}{\partial \theta_i}\Big)tr\Big(\widetilde{C}^{-1}\frac{\partial \widetilde{C}}{\partial \theta_i}\Big)-tr\Big(\widetilde{C}^{-1}\frac{\partial \widetilde{C}}{\partial \theta_i}\Big)tr\Big(\widetilde{C}^{-1}\frac{\partial \widetilde{C}}{\partial \theta_i}\Big)\\-tr\Big(\widetilde{C}^{-1}\frac{\partial \widetilde{C}}{\partial \theta_i}\Big)tr\Big(\widetilde{C}^{-1}\frac{\partial \widetilde{C}}{\partial \theta_i}\Big) + \frac{\partial \widetilde{\mu}^H}{\partial \theta_i}\widetilde{C}^{-1}\frac{\partial \widetilde{\mu}}{\partial \theta_j}+\frac{\partial \widetilde{\mu}^H}{\partial \theta_j}\widetilde{C}^{-1}\frac{\partial \widetilde{\mu}}{\partial \theta_i}\\+tr\Big(\widetilde{C}^{-1}\frac{\partial \widetilde{C}}{\partial \theta_i}\Big)tr\Big(\widetilde{C}^{-1}\frac{\partial \widetilde{C}}{\partial \theta_i}\Big) + tr\Big(\widetilde{C}^{-1}\frac{\partial \widetilde{C}}{\partial \theta_i}\widetilde{C}^{-1}\frac{\partial \widetilde{C}}{\partial \theta_j}\Big) Fij=tr(C 1θiC )tr(C 1θiC )tr(C 1θiC )tr(C 1θiC )tr(C 1θiC )tr(C 1θiC )+θiμ HC 1θjμ +θjμ HC 1θiμ +tr(C 1θiC )tr(C 1θiC )+tr(C 1θiC C 1θjC )
  • 注意到: ∂ μ ~ H ∂ θ i C ~ − 1 ∂ μ ~ ∂ θ j = ( ∂ μ ~ H ∂ θ j C ~ − 1 ∂ μ ~ ∂ θ i ) H \frac{\partial \widetilde{\mu}^H}{\partial \theta_i}\widetilde{C}^{-1}\frac{\partial \widetilde{\mu}}{\partial \theta_j} = \Big(\frac{\partial \widetilde{\mu}^H}{\partial \theta_j}\widetilde{C}^{-1}\frac{\partial \widetilde{\mu}}{\partial \theta_i}\Big)^H θiμ HC 1θjμ =(θjμ HC 1θiμ )H 即两项互为共轭,因此有: ∂ μ ~ H ∂ θ i C ~ − 1 ∂ μ ~ ∂ θ j + ∂ μ ~ H ∂ θ j C ~ − 1 ∂ μ ~ ∂ θ i = 2 R e { ∂ μ ~ H ∂ θ i C ~ − 1 ∂ μ ~ ∂ θ j } \frac{\partial \widetilde{\mu}^H}{\partial \theta_i}\widetilde{C}^{-1}\frac{\partial \widetilde{\mu}}{\partial \theta_j}+\frac{\partial \widetilde{\mu}^H}{\partial \theta_j}\widetilde{C}^{-1}\frac{\partial \widetilde{\mu}}{\partial \theta_i}=2Re\left\{ \frac{\partial \widetilde{\mu}^H}{\partial \theta_i}\widetilde{C}^{-1}\frac{\partial \widetilde{\mu}}{\partial \theta_j}\Bigg\}\right. θiμ HC 1θjμ +θjμ HC 1θiμ =2Re{θiμ HC 1θjμ }
  • 最终我们得到了: F i j = t r ( C ~ − 1 ∂ C ~ ∂ θ i C ~ − 1 ∂ C ~ ∂ θ j ) + 2 R e { ∂ μ ~ H ∂ θ i C ~ − 1 ∂ μ ~ ∂ θ j } F_{ij}=tr\Big(\widetilde{C}^{-1}\frac{\partial \widetilde{C}}{\partial \theta_i}\widetilde{C}^{-1}\frac{\partial \widetilde{C}}{\partial \theta_j}\Big)+2Re\left\{ \frac{\partial \widetilde{\mu}^H}{\partial \theta_i}\widetilde{C}^{-1}\frac{\partial \widetilde{\mu}}{\partial \theta_j}\Bigg\}\right. Fij=tr(C 1θiC C 1θjC )+2Re{θiμ HC 1θjμ }

参考文献

[1] Kay S M. Fundamentals of statistical signal processing: estimation theory[M]. Prentice-Hall, Inc., 1993.

  • 4
    点赞
  • 13
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
提供的源码资源涵盖了安卓应用、小程序、Python应用和Java应用等多个领域,每个领域都包含了丰富的例和项目。这些源码都是基于各自平台的最新技术和标准编写,确保了在对应环境下能够无缝运行。同时,源码中配备了详细的注释和文档,帮助用户快速理解代码结构和现逻辑。 适用人群: 这些源码资源特别适合大学生群体。无论你是计算机相关专业的学生,还是对其他领域编程感兴趣的学生,这些资源都能为你提供宝贵的学习和践机会。通过学习和运行这些源码,你可以掌握各平台开发的基础知识,提升编程能力和项目战经验。 使用场景及目标: 在学习阶段,你可以利用这些源码资源进行课程践、课外项目或毕业设计。通过分析和运行源码,你将深入了解各平台开发的技术细节和最佳践,逐步培养起自己的项目开发和问题解决能力。此外,在求职或创业过程中,具备跨平台开发能力的大学生将更具竞争力。 其他说明: 为了确保源码资源的可运行性和易用性,特别注意了以下几点:首先,每份源码都提供了详细的运行环境和依赖说明,确保用户能够轻松搭建起开发环境;其次,源码中的注释和文档都非常完善,方便用户快速上手和理解代码;最后,我会定期更新这些源码资源,以适应各平台技术的最新发展和市场需求。
### 回答1: 高斯参数核密度估计是一种用来估计数据分布的统计方法,它基于高斯核函数进行计算。在Matlab中,可以使用kde函数来进行高斯参数核密度估计。 首先,需要准备待估计的数据。可以将数据存储在一个向量或者矩阵中。 然后,使用kde函数进行估计。该函数的基本语法为: [kde_estimate, xi] = kde(data, num_points, ['function']) 参数说明: - data是待估计的数据,可以是一个向量或者矩阵。 - num_points是生成估计曲线的点数。 - 'function'是核函数的选择。在这里,可以选择'normal'来使用高斯核函数。 该函数会返回两个输出变量: - kde_estimate是通过核密度估计计算得到的估计曲线值。 - xi是生成估计曲线的横坐标。 最后,可以使用plot函数将估计曲线进行可视化展示。基本语法为: plot(xi, kde_estimate) 这样就可以在Matlab中使用高斯参数核密度估计来估计数据的分布情况了。 需要注意的是,高斯参数核密度估计方法的结果受到参数的选择影响。可以通过调整num_points参数来控制估计曲线的平滑程度,同时也可以尝试不同的核函数选择来比较不同的估计效果。同时,在际应用中,也需要根据具体问题来选择合适的参数值,以得到准确可靠的估计结果。 ### 回答2: 高斯参数核密度估计是一种用于估算数据分布密度的无参数方法。在MATLAB中,可以使用kde方法来高斯参数核密度估计。 首先,需要导入相关的数据。假设要估计一个一维数据分布的密度,可以使用一维数组来表示数据。 然后,使用kde方法进行估计。在MATLAB中,可以使用kde函数来现。该函数的输入参数包括数据和带宽。带宽控制了估计结果的平滑程度,过小的带宽会导致估计结果过于尖锐,过大的带宽会导致估计结果过于平滑。 最后,可以使用plot函数将估计的密度函数图像进行可视化。这样可以直观地观察数据分布的形状和估计结果的准确度。 需要注意的是,高斯参数核密度估计是一种计算密集型的方法,当数据量较大时可能会消耗较长的计算时间。在使用时,可以根据具体情况选择合适的计算方法及参数,以达到较好的估计效果。 综上所述,使用MATLAB中的kde方法可以高斯参数核密度估计,通过调整带宽参数可以控制估计结果的平滑程度,使用plot函数可以将估计结果可视化。这种方法对于分析数据分布和异常点检测等应用具有重要意义。 ### 回答3: 高斯参数核密度估计是一种在统计学中常用的方法,用于估计数据集的概率密度函数。与参数估计方法不同,高斯参数核密度估计不需要对数据的参数进行假设,而是直接根据数据的分布情况进行估计。 在Matlab中,可以使用kde函数进行高斯参数核密度估计。该函数可以接受一个一维数据向量或一个多维数据矩阵作为输入,并返回相应的密度估计结果。 具体使用方法如下: 1. 将数据存储在一个列向量或矩阵中。 2. 使用kde函数对数据进行估计,语法为kde(data),其中data为数据向量或矩阵。 3. 可选地,可以设置一些参数来调整估计结果,例如带宽(bandwidth)或核函数(kernel)的选择。 示例代码如下: ```matlab data = [1, 2, 3, 4, 5]; % 假设数据为一个一维向量 estimation = kde(data); % 进行高斯参数核密度估计 plot(estimation); % 绘制估计结果的密度曲线 ``` 上述代码首先将数据存储在一个一维向量中,然后使用kde函数对数据进行估计,并将结果存储在estimation变量中。最后,使用plot函数绘制估计结果的密度曲线。 使用高斯参数核密度估计方法可以帮助我们更好地理解数据的分布情况,例如发现数据的峰值位置、探索数据的尾部形状等。通过调整参数,我们还可以控制估计结果的平滑程度和灵敏度。总的来说,高斯参数核密度估计是一种灵活而强大的方法,可以帮助我们对数据进行更准确的分析和建模。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值