Fisher Information(费雪信息)详解

Fisher Information(费雪信息)

定义

Fisher Information 是一种衡量“随机观测样本携带的未知参数 θ \theta θ的信息量”的方法,其中 θ \theta θ为待估计的参数。

假定观测随机变量序列为 X 1 , X 2 , . . . , X 3 X_1,X_2,...,X_3 X1,X2,...,X3,且都服从概率分布 f ( X ; θ ) f(X;\theta) f(X;θ),则似然函数可以表示成:
L ( X ; θ ) = ∏ i = 1 n f ( X i ; θ ) L(\mathbf{X} ; \theta)=\prod_{i=1}^n f\left(X_i ; \theta\right) L(X;θ)=i=1nf(Xi;θ)
对数似然函数对 θ \theta θ求导并令一阶导数为0,则可以得到 θ \theta θ的最大似然估计值 θ ^ \hat{\theta} θ^。上述对数似然函数的一阶导数也称作Score function,其定义为:
S ( X ; θ ) = ∑ i = 1 n ∂ log ⁡ f ( X i ; θ ) ∂ θ = ∑ i = 1 n S ( X i ; θ ) S(\mathbf{X} ; \theta)=\sum_{i=1}^n \frac{\partial \log f\left(X_i ; \theta\right)}{\partial \theta}=\sum_{i=1}^n S(X_i;\theta) S(X;θ)=i=1nθlogf(Xi;θ)=i=1nS(Xi;θ)
那么Fisher Information定义为Score function的二阶矩 I ( θ ) = E [ S ( X ; θ ) 2 ] I(\theta)=E\left[S(\mathbf{X} ; \theta)^2\right] I(θ)=E[S(X;θ)2],下面对以下两点进行证明

  • E [ S ( X ; θ ) ] = 0 E[S(\mathbf{X} ; \theta)]=0 E[S(X;θ)]=0
  • I ( θ ) = E [ S ( X ; θ ) 2 ] − E [ S ( X ; θ ) ] 2 = Var ⁡ [ S ( X ; θ ) ] I(\theta)=E\left[S(\mathbf{X} ; \theta)^2\right]-E[S(\mathbf{X} ; \theta)]^2=\operatorname{Var}[S(\mathbf{X} ; \theta)] I(θ)=E[S(X;θ)2]E[S(X;θ)]2=Var[S(X;θ)]

证明一

因为概率密度函数 f ( X i ; θ ) f(X_i;\theta) f(Xi;θ)有以下性质
在这里插入图片描述
上式两边对 θ \theta θ进行求导
在这里插入图片描述
对上式左端进行变换
在这里插入图片描述
证明二

由证明一,显然可得。

由证明二可以得到Fisher Information的第一条数学意义:最大似然估计的方程的方差。

进一步,如果对数似然函数二阶可导,则在一般情况下可以证明:

  • I ( θ ) = E [ S ( X ; θ ) 2 ] = − E ( ∂ 2 ∂ θ 2 log ⁡ L ( X ; θ ) ) I(\theta)=E\left[S(\mathbf{X} ; \theta)^2\right]=-E\left(\frac{\partial^2}{\partial \theta^2} \log L(\mathbf{X} ; \theta)\right) I(θ)=E[S(X;θ)2]=E(θ22logL(X;θ))

证明三

∂ ℓ ( θ ; x ) ∂ θ = ∂ log ⁡ f ( x ; θ ) ∂ θ \frac{\partial\ell \left( \theta ; x \right)}{\partial \theta} = \frac{\partial\log f \left( x ; \theta \right)}{\partial \theta} θ(θ;x)=θlogf(x;θ),根据证明一的结论有
在这里插入图片描述
对上式两边同时对 θ \theta θ求偏导
在这里插入图片描述
上式左边第二项可以写为
在这里插入图片描述

从中可以得出
在这里插入图片描述

证毕。于是可以得到Fisher Information的第二条数学意义:对数似然函数在参数真实值处的负二阶导数的期望。

下面举个例子说明其数学含义,下图为一个简单的归一化伯努利对数似然函数图。

image-20230425223944153

容易看出,当其平且宽的时候,代表了对参数估计的性能差,而当且坚且窄时,代表了对参数估计的性能好,也可以说信息量越大。而这个对数似然函数的负二阶导数就反映了其在顶点处的弯曲程度,弯曲程度大,对数似然函数的形状就趋近于高而窄,也表示掌握的信息越多。

矩阵形式

现假定待估计参数为 θ = [ θ 1 , θ 2 , . . . , θ N ] T \mathbf{\theta}=[\theta_1,\theta_2,...,\theta_N]^T θ=[θ1,θ2,...,θN]T,则Fisher Information此时可以用矩阵形式表示,该矩阵称为Fisher information matrix,其中的元素可以写为以下两种形式:
[ I ( θ ) ] i , j = E [ ( ∂ ∂ θ i log ⁡ f ( X ; θ ) ) ( ∂ ∂ θ j log ⁡ f ( X ; θ ) ) ∣ θ ] [ I ( θ ) ] i , j = − E [ ∂ 2 ∂ θ i ∂ θ j log ⁡ f ( X ; θ ) ∣ θ ] \begin{equation} \begin{aligned} {[\mathbb{I}(\theta)]_{i, j} } & =E\left[\left(\frac{\partial}{\partial \theta_i} \log f(X ; \boldsymbol{\theta})\right)\left(\frac{\partial}{\partial \theta_j} \log f(X ; \boldsymbol{\theta})\right) \mid \boldsymbol{\theta}\right] \\ {[\mathbb{I}(\theta)]_{i, j} } & =-E\left[\frac{\partial^2}{\partial \theta_i \partial \theta_j} \log f(X ; \boldsymbol{\theta}) \mid \boldsymbol{\theta}\right] \end{aligned} \end{equation} [I(θ)]i,j[I(θ)]i,j=E[(θilogf(X;θ))(θjlogf(X;θ))θ]=E[θiθj2logf(X;θ)θ]
下面举例说明,归一化周期频率的复数正弦信号 s(t) 的均匀采样可以表示为
x [ n ] = s [ n ] + w [ n ] = A exp ⁡ [ j ( 2 π f 0 n + ϕ ) ] + w [ n ] = A ~ exp ⁡ ( j 2 π f 0 n ) + w [ n ] , 0 ≤ n ≤ N − 1 \begin{align*} x\left[ n \right] &= s\left[ n \right] + w\left[ n \right]\\ & = A\exp \left[ {j\left({2\pi {f_0}n + \phi } \right)} \right] + w\left[ n \right]\\ & = \tilde{A}\exp \left({j2\pi {f_0}n} \right) + w\left[ n \right], 0 \leq n \leq N - 1 \end{align*} x[n]=s[n]+w[n]=Aexp[j(2πf0n+ϕ)]+w[n]=A~exp(j2πf0n)+w[n],0nN1
其中 A ~ = A exp ⁡ ( j ϕ ) \tilde{A} = A\exp ({j\phi }) A~=Aexp(jϕ)是复幅度, ω [ n ] \omega[n] ω[n]是功率为 σ w 2 \sigma_w^2 σw2的加性高斯白噪声。其中 A , f 0 , ϕ A,f_0,\phi Af0,ϕ为待估计参数。则Fisher information matrix中的第 ( i , j ) (i,j) (i,j) 个元素为
[ I ( Θ ) i j ] = 2 σ w 2 R e { ∑ n = 0 N − 1 [ ∂ s [ n ; Θ ] ∂ Θ i ] ∗ [ ∂ s [ n ; Θ ] ∂ Θ j ] } \begin{equation*} \left[ {{{\bf I}}{{\left({{\bf \Theta } } \right)}_{ij}}} \right] = \frac{2}{{\sigma _w^2}}{\mathop {\rm Re}\nolimits } \left\lbrace {{{\sum \limits _{n = 0}^{N - 1} {\left[ {\frac{{\partial s\left[ {n;{{\bf \Theta } }} \right]}}{{\partial {\Theta _i}}}} \right]} }^*}\left[ {\frac{{\partial s\left[ {n;{{\bf \Theta } }} \right]}}{{\partial {\Theta _j}}}} \right]} \right\rbrace \end{equation*} [I(Θ)ij]=σw22Re{n=0N1[Θis[n;Θ]][Θjs[n;Θ]]}
其中 Θ = [ A , f 0 , ϕ ] T {{\bf \Theta } } = {[A,{f_0},\phi ]^{\rm {T}}} Θ=[A,f0,ϕ]T。他们的偏导可以表示为
∂ s [ n ; Θ ] ∂ A = exp ⁡ [ j ( 2 π f 0 n + ϕ ) ] ∂ s [ n ; Θ ] ∂ f 0 = j 2 π n A exp ⁡ [ j ( 2 π f 0 n + ϕ ) ] ∂ s [ n ; Θ ] ∂ ϕ = j A exp ⁡ [ j ( 2 π f 0 n + ϕ ) ] . \begin{align*} \frac{{\partial s\left[ {n;{{\bf \Theta } }} \right]}}{{\partial A}} &= \exp \left[ {j\left({2\pi {f_0}n + \phi } \right)} \right] \\ \frac{{\partial s\left[ {n;{{\bf \Theta } }} \right]}}{{\partial {f_0}}} &= j2\pi nA\exp \left[ {j\left({2\pi {f_0}n + \phi } \right)} \right] \\ \frac{{\partial s\left[ {n;{{\bf \Theta } }} \right]}}{{\partial \phi }} &= jA\exp \left[ {j\left({2\pi {f_0}n + \phi } \right)} \right]. \end{align*} As[n;Θ]f0s[n;Θ]ϕs[n;Θ]=exp[j(2πf0n+ϕ)]=j2πnAexp[j(2πf0n+ϕ)]=jAexp[j(2πf0n+ϕ)].
因此,FIM可以表示为
[ I ( Θ ) i j ] = 2 σ w 2 [ N 0 0 0 A 2 ∑ n ( 2 π n ) 2 A 2 ∑ n 2 π n 0 A 2 ∑ n 2 π n N A 2 ] . \begin{align*} \left[ {{{\bf I}}{{\left({{\bf \Theta } } \right)}_{ij}}} \right] &= \frac{2}{{\sigma _w^2}}\left[ {\begin{array}{ccc}N&0&0\\ 0&{{A^2}\sum \limits _n {{{\left({2\pi n} \right)}^2} } }&{{A^2}\sum \limits _n {2\pi n} }\\ 0&{{A^2}\sum \limits _n {2\pi n} }&{N{A^2}} \end{array}} \right]. \end{align*} [I(Θ)ij]=σw22 N000A2n(2πn)2A2n2πn0A2n2πnNA2 .

  • 6
    点赞
  • 14
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值