Estimation Theory [Steven M. Kay] 学习笔记
文章目录
前前言
#个人学习笔记 #未考虑自己以外的读者体验 #有错请指正
教材:Steven M. Kay, Fundamentals of statistical signal processing: estimation theory[M]. Prentice-Hall, Inc., 1993.
Estimation Theory
前言
-
primary focas: 获得可以在数字计算机上运算的最优估计算法
-
data sets 是连续时间信号的采样,或者数据点序列
-
前序学科:数字信号处理、概率和随机过程、线性和矩阵算数
-
overview:2-9章是经典估计,10-13是Bayesian估计。先讨论标量参数,再拓展到矢量参数。
Chapter 1
1.2 估计的数学问题
-
PDF以未知数 θ \theta θ为参数。因此有一族PDF,当参数 θ \theta θ不同,数据集合(data set)的值不同。
用分号表示这种关系:
p ( x [ 0 ] , x [ 1 ] , . . . . x [ n ] ; θ ) p(x[0],x[1],....x[n];\theta) p(x[0],x[1],....x[n];θ)
因此,可以根据 x \boldsymbol x x的值推断出 θ ^ \hat \theta θ^的值。 -
实际问题中并没有给出PDF,而是要选择一个不仅与问题的约束和先验知识一致的,而且在数学上也容易处理的PDF。
-
classical estimation&Bayesian estimation
-
classical estimation:感兴趣的参数假定为确定的但是未知
-
Bayesian estimation:感兴趣的参数是随机变量
如:先验地知道,感兴趣的参数 θ \theta θ在是 [ a , b ] [a,b] [a,b]中的一个随机变量, θ \theta θ不再是一个确定的参数,而且指定PDF, θ \theta θ即可在 [ a , b ] [a,b] [a,b]之间均匀分布。
则数据由联合PDF描述:
p ( x , θ ) = p ( x ∣ θ ) p ( θ ) p(\boldsymbol x,\theta)=p(\boldsymbol x |\theta)p(\theta) p(x,θ)=p(x∣θ)p(θ)
其中, p ( θ ) p(\theta) p(θ)是先验PDF,概括了在数据观测以前关于 θ \theta θ的先验知识, p ( x ∣ θ ) p(\boldsymbol x|\theta) p(x∣θ)是条件PDF,概括了在已知 θ \theta θ的条件下由数据 x \boldsymbol x x提供的知识。
-
Chapter 2 最小方差无偏估计
2.1&2.2
-
利用最小均方误差MSE(通常导出的是不可实现的估计量)作为更为自然的误差准则
-
最小方差无偏估计(MVU)存在:利用Cramer-Rao Bound和充分统计概念,求出估计器
MVU不存在:更多限制条件(数据为线性数据)的估计器更容易实现,但是是次优的评估器
2.3 无偏估计
-
定义:参数 θ \theta θ是在区间 a < θ < b a<\theta<b a<θ<b上的任何值,无论 θ \theta θ的真值是多少,估计量的均值都等于真值。
数学表示:如果
E ( θ ^ ) = θ , a < θ < b E(\hat \theta)=\theta,\ a<\theta<b E(θ^)=θ, a<θ<b
那么估计器 θ ^ \hat\theta θ^是无偏的,其中 ( a , b ) (a,b) (a,b)表示 θ \theta θ的可能取值范围。注:对所有 θ \theta θ, E ( θ ^ ) = θ E(\hat\theta)=\theta E(θ^)=θ。 -
令 θ ^ = g ( x ) \hat\theta=g(x) θ^=g(x),其中 x = [ x [ 0 ] , x [ 1 ] , . . . , x [ N − 1 ] ] T \boldsymbol x=[x[0],x[1],...,x[N-1]]^T x=[x[0],x[1],...,x[N−1]]T,这要求
E ( θ ^ ) = ∫ g ( x ) p ( x ; θ ) = θ , f o r a l l θ E(\hat\theta)=\int g(\bold x)p(\boldsymbol x;\theta)=\theta,\ for\ all\ \theta E(θ^)=∫g(x)p(x;θ)=θ, for all θ -
如果估计器是有偏的,则偏差定义为
b ( θ ) = E ( θ ^ ) − θ b(\theta)=E(\hat\theta)-\theta b(θ)=E(θ^)−θ
2.4 最小方差准则
-
均方误差mean square error定义
m s e ( θ ^ ) = E [ ( θ ^ − θ ) 2 ] = E { [ ( θ ^ − E ( θ ^ ) ) + ( E ( θ ^ ) − θ ) ] 2 } = v a r ( θ ^ ) + [ E ( θ ^ ) − θ ) ] 2 = v a r ( θ ^ ) + b 2 ( θ ) \begin{aligned} \mathrm{mse}(\hat\theta)&=E[(\hat\theta-\theta)^2] \\ &=E\{[(\hat\theta-E(\hat\theta))+(E(\hat\theta)-\theta)]^2\} \\ &=\mathrm{var}(\hat\theta)+[E(\hat\theta)-\theta)]^2 \\ &=\mathrm{var}(\hat\theta)+b^2(\theta) \end{aligned} mse(θ^)=E[(θ^−θ)2]=E{[(θ^−E(θ^))+(E(θ^)−θ)]2}=var(θ^)+[E(θ^)−θ)]2=var(θ^)+b2(θ) -
任何与偏差 b ( θ ) b(\theta) b(θ)有关的估计器都不可实现。
-
mse是不可实现的估计器,因为不可写成数据的唯一函数。
-
MSE不可用 → \rightarrow → 约束 b ( θ ) = 0 b(\theta)=0 b(θ)=0,求 v a r ( θ ) \mathrm{var}(\theta) var(θ)最小的估计器。 ⇒ \Rightarrow ⇒最小方差无偏估计MVU
2.5 MVU的存在性
- MVU不一定存在
2.6 确定最小方差无偏估计
-
确定CRLB,然后检查是否有 θ ^ \hat\theta θ^满足CRLB(chapter3、4)
-
应用RBLS定理(chpter5)
-
进一步限制不仅是无偏的们还是线性的,然后在这些限制中找出最小方差无偏估计(chapter6)
2.7 拓展到矢量
-
未知参数矢量为 θ = [ θ 1 θ 2 . . . θ p ] T \boldsymbol{\theta}=[\theta_1 \theta_2...\theta_p]^T θ=[θ1θ2...θp]T,则无偏估计器 θ ^ = [ θ ^ 1 θ ^ 2 . . . θ ^ p ] T \boldsymbol{\hat\theta}=[\hat\theta_1\hat\theta_2...\hat\theta_p]^T θ^=[θ^1θ^2...θ^p]T满足
E ( θ ^ i ) = θ i a i < θ i < b i E(\hat\theta_i)=\theta_i\quad a_i<\theta_i<b_i E(θ^i)=θiai<θi<bi
定义
E ( θ ^ ) = [ E ( θ ^ 1 ) E ( θ ^ 2 ) ⋮ E ( θ ^ p ) ] E(\hat{\boldsymbol{\theta}})=\left[ \begin{array}{c} E\left(\hat{\theta}_{1}\right) \\ E\left(\hat{\theta}_{2}\right) \\ \vdots \\ E\left(\hat{\theta}_{p}\right) \end{array} \right] E(θ^)=⎣⎢⎢⎢⎢⎢⎢⎡E(θ^1)E(θ^2)⋮E(θ^p)⎦⎥⎥⎥⎥⎥⎥⎤也可定义为
E ( θ ^ ) = θ E(\hat{\boldsymbol\theta})=\boldsymbol \theta E(θ^)=θ
Chapter 3
3.1&3.2
-
CRLB可以确定一个estimator是MVU,或者给估计器性能比较一个benchmark。
-
如果不存在可以到达CRLB的估计器,可以渐进达到(in chapter 7)
-
-
标量参数的CRLB(3.6),如果满足(3.7)则可以达到下界;
-
另一种确定CRLB(3.12)
-
估计参数是一个函数时CRLB(3.16)
-
3.3 估计器精度考虑
-
估计精度与PDF直接相关:PDF对参数的依赖性越强,所得估计精度越高。
-
PDF作为未知参数的函数时( x \mathbf{x} x固定),为似然函数。
-
似然函数的尖锐程度决定了估计未知参数的精度。用对数似然函数的负二阶导数度量尖锐性。
对数似然函数的平均曲率:
− E [ ∂ 2 ln p ( x [ 0 ] ; A ) ∂ A 2 ] -E\left[\frac{\partial^{2} \ln p(x[0] ; A)}{\partial A^{2}}\right] −E[∂A2∂2lnp(x[0];A)]
3.4 CRLB
-
定理:
正则条件——假设PDF p ( x ; θ ) p(\boldsymbol x;\theta) p(x;θ)满足
E [ ∂ ln p ( x ; θ ) ∂ θ ] = 0 f o r a l l θ E\left[\frac{\partial \ln p(\boldsymbol x ; \theta)}{\partial \theta}\right]=0\quad for\ all\ \theta E[∂θ∂lnp(x;θ)]=0for all θ
其中,期望是对 p ( x ; θ ) p(\mathbf x;\theta) p(x;θ)求得。下界——则任何无偏估计器 θ ^ \hat\theta θ^的方差一定满足
var ( θ ^ ) ⩾ 1 − E [ ∂ 2 ln p ( x ; θ ) ∂ θ 2 ] (3.6) \operatorname{var}(\hat{\theta}) \geqslant \frac{1}{-E\left[\frac{\partial^{2} \ln p(\mathbf{x} ; \theta)}{\partial \theta^{2}}\right]}\tag{3.6} var(θ^)⩾−E[∂θ2∂2lnp(x;θ)]1(3.6)
其中,导数是在 θ \theta θ的真值处计算。MVUE——对于某个函数 g g g和 I I I,当且仅当
∂ ln p ( x ; θ ) ∂ θ = I ( θ ) ( g ( x ) − θ ) (3.7) \frac{\partial \ln p(\mathbf{x} ; \theta)}{\partial \theta}=I(\theta)(g(\mathbf{x})-\theta)\tag{3.7} ∂θ∂lnp(x;θ)=I(θ)(g(x)−θ)(3.7)
时,对所有 θ \theta θ达到下界的unbiased estimator可求。这个估计器就是 θ ^ = g ( x ) \hat\theta=g(\mathbf x) θ^=g(x),且是MVUE,最小方差是 1 I ( θ ) \frac{1}{I(\theta)} I(θ)1. -
上面的数学期望还可以由下式给出
E [ ∂ 2 ln p ( x ; θ ) ∂ θ 2 ] = ∫ ∂ 2 ln p ( x ; θ ) ∂ θ 2 p ( x ; θ ) d x E\left[\frac{\partial^2 \ln p(\boldsymbol x ; \theta)}{\partial \theta^2}\right]=\int \frac{\partial^2 \ln p(\mathbf{x} ; \theta)}{\partial \theta^2}p(\mathbf x;\theta) \mathrm d \mathbf x E[∂θ2∂2lnp(x;θ)]=∫∂θ2∂2lnp(x;θ)p(x;θ)dx -
Fisher Information—— I ( θ ) I(\theta) I(θ)
I ( θ ) = − E [ ∂ 2 ln p ( x ; θ ) ∂ θ 2 ] I(\theta)=-E\left[\frac{\partial^{2} \ln p(\mathbf{x} ; \theta)}{\partial \theta^{2}}\right] I(θ)=−E[∂θ2∂2lnp(x;θ)]
直观理解:信息越多,下限越低。具有信息测度的基本性质:- 非负的
- 独立观测是可加的
-
对于无法达到CRLB下限条件的例子中,不存在无偏且达到CRLB的估计器。但是MVU仍可能存在,目前只是无法确定MVU存在与否,Chapter5的充分统计量将解决此条件下MVU如果存在并如何求问题。
-
Efficient——达到CRLB的估计器称为efficient。
-
另一种CRLB表示:
var ( θ ^ ) ⩾ 1 E [ ( ∂ ln p ( x ; θ ) ∂ θ ) 2 ] (3.12) \operatorname{var}(\hat{\theta}) \geqslant \frac{1}{E\left[\left(\frac{\partial \ln p(\mathbf{x} ; \theta)}{\partial \theta}\right)^{2}\right]}\tag{3.12} var(θ^)⩾E[(∂θ∂lnp(x;θ))2]1(3.12)
因为恒等式 E [ ( ∂ ln p ( x ; θ ) ∂ θ ) 2 ] = − E [ ∂ 2 ln p ( x ; θ ) ∂ θ 2 ] E\left[\left(\frac{\partial \ln p(\mathbf{x} ; \theta)}{\partial \theta}\right)^{2}\right]=-E\left[\frac{\partial^{2} \ln p(\mathbf{x} ; \theta)}{\partial \theta^{2}}\right] E[(∂θ∂lnp(x;θ))2]=−E[∂θ2∂2lnp(x;θ)] -
由于fisher信息对于独立观测是可加的,则对 N N N个IID观测的CRLB是单次观测的 1 N \frac{1}{N} N1。
3.5 WGN中的一般CRLB
- Example: x [ n ] = s [ n ; θ ] + w [ n ] n = 0 , 1 , . . . , N − 1 x[n]=s[n;\theta]+w[n] \quad n=0,1,...,N-1 x[n]=s[n;θ]+w[n]n=0,1,...,N−1
- Example3.5: s [ n ; f 0 ] = A cos ( 2 π f 0 n + ϕ ) 0 < f 0 < 1 2 s[n;f_0]=A\cos(2\pi f_0n+\phi) \quad 0<f_0<\frac{1}{2} s[n;f0]=Acos(2πf0n+ϕ)0<f0<21
3.6 参数变形
-
已知参数 θ \theta θ的CRLB,计算 α = g ( θ ) \alpha=g(\theta) α=g(θ)的CRLB:
var ( α ^ ) ⩾ ( ∂ g ∂ θ ) 2 − E [ ∂ 2 ln p ( x ; θ ) ∂ θ 2 ] (3.16) \operatorname{var}(\hat{\alpha}) \geqslant \frac{\left(\frac{\partial g}{\partial \theta}\right)^{2}}{-E\left[\frac{\partial^{2} \ln p(\mathbf{x} ; \theta)}{\partial \theta^{2}}\right]} \tag{3.16} var(α^)⩾−E[∂θ2∂2lnp(x;θ)](∂θ∂g)2(3.16) -
非线性变换会破坏估计器的有效性。线性(仿射affine)变换能够保持有效性。
即: θ ^ \hat\theta θ^是 θ \theta θ的有效估计器,则 g ( θ ) = a θ + b g(\theta)=a\theta+b g(θ)=aθ+b的有效估计器满足 g ( θ ) ^ = g ( θ ^ ) = a θ ^ + b \widehat{g(\theta)}=g(\hat\theta)=a\hat\theta+b g(θ) =g(θ^)=aθ^+b.
-
对于非线性变换,如果数据量足够大,则估计器的有效性也可以近似保持。
3.7 拓展到矢量
-
对于向量 θ = [ θ 1 θ 2 ⋯ θ p ] T \boldsymbol\theta=[\theta_1 \theta_2\cdots\theta_p]^T θ=[θ1θ2⋯θp]T,则无偏估计器 θ ^ \hat{\boldsymbol\theta} θ^的下界为
var ( θ ^ i ) ≥ [ I − 1 ( θ ) ] i i \operatorname{var}\left(\hat{\theta}_{i}\right) \geq\left[\mathbf{I}^{-1}(\boldsymbol\theta)\right]_{i i} var(θ^i)≥[I−1(θ)]ii
θ \boldsymbol \theta θ中的第 i i i个参数的下界为信息矩阵的转置矩阵的 [ i , i ] [i,i] [i,i]个元素。其中,费雪信息矩阵 I ( θ ) I(\boldsymbol\theta) I(θ)为
[ I ( θ ) ] i j = − E [ ∂ 2 ln p ( x ; θ ) ∂ θ i ∂ θ j ] [\mathbf{I}(\boldsymbol{\theta})]_{i j}=-E\left[\frac{\partial^{2} \ln p(\boldsymbol{x} ; \boldsymbol{\theta})}{\partial \theta_{i} \partial \theta_{j}}\right] [I(θ)]ij=−E[∂θi∂θj∂2lnp(x;θ)] -
两点:
- 估计参数越多,CRLB越大。
- x [ n ] x[n] x[n]对不同参数的变化敏感度不同。
-
定理
正则条件——假设PDF p ( x ; θ ) p(\boldsymbol x;\boldsymbol \theta) p(x;θ)满足
E [ ∂ ln p ( x ; θ ) ∂ θ ] = 0 f o r a l l θ E\left[\frac{\partial \ln p(\boldsymbol x ; \boldsymbol\theta)}{\partial \boldsymbol\theta}\right]=0\quad for\ all\ \boldsymbol\theta E[∂θ∂lnp(x;θ)]=0for all θ
其中,期望是对 p ( x ; θ ) p(\boldsymbol x;\boldsymbol \theta) p(x;θ)求得。下界——任何无偏估计 θ ^ \hat{\boldsymbol \theta} θ^的协方差矩阵满足
C θ ^ − I − 1 ( θ ) ⩾ 0 \mathbf{C}_{\hat{\theta}}-\mathrm{I}^{-1}(\boldsymbol{\theta}) \geqslant \mathbf{0} Cθ^−I−1(θ)⩾0
其中$\geqslant \mathbf{0} $解释为矩阵是半正定的。费雪信息矩阵 I ( θ ) \mathbf I(\boldsymbol\theta) I(θ)——
[ I ( θ ) ] i j = − E [ ∂ 2 ln p ( x ; θ ) ∂ θ i ∂ θ j ] [\mathbf{I}(\boldsymbol{\theta})]_{ij}=-E\left[\frac{\partial^{2} \ln p(\mathbf{x} ; \boldsymbol{\theta})}{\partial \theta_{i} \partial \theta_{j}}\right] [I(θ)]ij=−E[∂θi∂θj∂2lnp(x;θ)]
其中,导数是在 θ \boldsymbol\theta θ的真值上计算的,数学期望是对 p ( x ; θ ) p(\mathbf x;\boldsymbol\theta) p(x;θ)求出的。MVUE——对于某个 p p p维函数 g \boldsymbol g g和 p × p p\times p p×p矩阵 I \boldsymbol I I,当且仅当
∂ ln p ( x ; θ ) ∂ θ = I ( θ ) ( g ( x ) − θ ) \frac{\partial \ln p(\mathbf{x} ; \boldsymbol{\theta})}{\partial \boldsymbol{\theta}}=\mathbf{I}(\boldsymbol{\theta})(\mathbf{g}(\mathbf{x})-\boldsymbol{\theta}) ∂θ∂lnp(x;θ)=I(θ)(g(x)−θ)
可求到达下界的 C θ ^ = I − 1 ( θ ) \mathbf{C}_{\hat{\theta}}=\mathrm{I}^{-1}(\boldsymbol{\theta}) Cθ^=I−1(θ)的无偏估计 θ ^ = g ( x ) \hat{\boldsymbol{\theta}}=\mathbf{g}(\mathbf{x}) θ^=g(x)。
3.8 矢量参数的变换
-
计算 α = g ( θ ) \boldsymbol \alpha=\mathbf g(\boldsymbol \theta) α=g(θ), g \mathbf g g是r-维函数
C α ^ − ∂ g ( θ ) ∂ θ I − 1 ( θ ) ∂ g ( θ ) T ∂ θ ≥ 0 (3.30) \mathbf{C}_{\hat{\alpha}}-\frac{\partial \mathbf{g}(\boldsymbol{\theta})}{\partial \boldsymbol{\theta}} \mathbf{I}^{-1}(\boldsymbol{\theta}) \frac{\partial \mathbf{g}(\boldsymbol{\theta})^{T}}{\partial \boldsymbol{\theta}} \geq \mathbf{0}\tag{3.30} Cα^−∂θ∂g(θ)I−1(θ)∂θ∂g(θ)T≥0(3.30)
其中:-
≥ 0 \geq \boldsymbol 0 ≥0表示半正定
-
∂ g ( θ ) / ∂ θ \partial \mathrm{g}(\boldsymbol\theta) / \partial \boldsymbol \theta ∂g(θ)/∂θ是 r × p r\times p r×p 雅各比矩阵
∂ g ( θ ) ∂ θ = [ ∂ g 1 ( θ ) ∂ θ 1 ∂ g 1 ( θ ) ∂ θ 2 … ∂ g 1 ( θ ) ∂ θ p ∂ g 2 ( θ ) ∂ θ 1 ∂ g 2 ( θ ) ∂ θ 2 ⋯ ∂ g 2 ( θ ) ∂ θ p ⋮ ⋮ ⋱ ⋮ ∂ g r ( θ ) ∂ θ 1 ∂ g r ( θ ) ∂ θ 2 ⋯ ∂ g r ( θ ) ∂ θ p ] \frac{\partial \mathbf{g}(\boldsymbol{\theta})}{\partial \boldsymbol{\theta}}=\left[\begin{array}{cccc} \frac{\partial g_{1}(\boldsymbol{\theta})}{\partial \theta_{1}} & \frac{\partial g_{1}(\boldsymbol{\theta})}{\partial \theta_{2}} & \ldots & \frac{\partial g_{1}(\boldsymbol{\theta})}{\partial \theta_{p}} \\ \frac{\partial g_{2}(\boldsymbol{\theta})}{\partial \theta_{1}} & \frac{\partial g_{2}(\boldsymbol{\theta})}{\partial \theta_{2}} & \cdots & \frac{\partial g_{2}(\boldsymbol{\theta})}{\partial \theta_{p}} \\ \vdots & \vdots & \ddots & \vdots \\ \frac{\partial g_{r}(\boldsymbol{\theta})}{\partial \theta_{1}} & \frac{\partial g_{r}(\boldsymbol{\theta})}{\partial \theta_{2}} & \cdots & \frac{\partial g_{r}(\boldsymbol{\theta})}{\partial \theta_{p}} \end{array}\right] ∂θ∂g(θ)=⎣⎢⎢⎢⎢⎢⎡∂θ1∂g1(θ)∂θ1∂g2(θ)⋮∂θ1∂gr(θ)∂θ2∂g1(θ)∂θ2∂g2(θ)⋮∂θ2∂gr(θ)…⋯⋱⋯∂θp∂g1(θ)∂θp∂g2(θ)⋮∂θp∂gr(θ)⎦⎥⎥⎥⎥⎥⎤
-
3.9 一般高斯情况的CRLB
-
数据
x ∼ N ( μ ( θ ) , C ( θ ) ) \mathbf{x} \sim \mathcal{N}(\boldsymbol{\mu}(\boldsymbol{\theta}), \mathbf{C}(\boldsymbol{\theta})) x∼N(μ(θ),C(θ))
均值和协方差都依赖参数 θ \boldsymbol \theta θ。费雪信息矩阵为
[ I ( θ ) ] i j = [ ∂ μ ( θ ) ∂ θ i ] T C − 1 ( θ ) [ ∂ μ ( θ ) ∂ θ j ] + 1 2 tr [ C − 1 ( θ ) ∂ C ( θ ) ∂ θ i C − 1 ( θ ) ∂ C ( θ ) ∂ θ j ] (3.31) [\mathbf{I}(\boldsymbol{\theta})]_{i j} =\left[\frac{\partial \boldsymbol{\mu}(\boldsymbol{\theta})}{\partial \theta_{i}}\right]^{T} \mathbf{C}^{-1}(\boldsymbol{\theta})\left[\frac{\partial \boldsymbol{\mu}(\boldsymbol{\theta})}{\partial \theta_{j}}\right] +\frac{1}{2} \operatorname{tr}\left[\mathbf{C}^{-1}(\boldsymbol{\theta}) \frac{\partial \mathbf{C}(\boldsymbol{\theta})}{\partial \theta_{i}} \mathbf{C}^{-1}(\boldsymbol{\theta}) \frac{\partial \mathbf{C}(\boldsymbol{\theta})}{\partial \theta_{j}}\right]\tag{3.31} [I(θ)]ij=[∂θi∂μ(θ)]TC−1(θ)[∂θj∂μ(θ)]+21tr[C−1(θ)∂θi∂C(θ)C−1(θ)∂θj∂C(θ)](3.31)
其中
∂ μ ( θ ) ∂ θ i = [ ∂ [ μ ( θ ) ] 1 ∂ θ i ∂ [ μ ( θ ) ] 2 ∂ θ i ⋮ ∂ [ μ ( θ ) ] N ∂ θ i ] ∂ C ( θ ) ∂ θ i = [ ∂ [ C ( θ ) ] 11 ∂ θ i ∂ [ C ( θ ) ] 12 ∂ θ i … ∂ [ C ( θ ) ] 1 N ∂ θ i ∂ [ C ( θ ) ] 21 ∂ θ i ∂ [ C ( θ ) ] 22 ∂ θ i ⋯ ∂ [ C ( θ ) ] 2 N ∂ θ i ⋮ ⋮ ⋱ ⋮ ∂ [ C ( θ ) ] N 1 ∂ θ i ∂ [ C ( θ ) ] N 2 ∂ θ i ⋯ ∂ [ C ( θ ) ] N N ∂ θ i ] \frac{\partial \boldsymbol{\mu}(\boldsymbol{\theta})}{\partial \theta_{i}}=\left[\begin{array}{c} \frac{\partial[\boldsymbol{\mu}(\boldsymbol{\theta})]_{1}}{\partial \theta_{i}} \\ \frac{\partial[\boldsymbol{\mu}(\boldsymbol{\theta})]_{2}}{\partial \theta_{i}} \\ \vdots \\ \frac{\partial[\boldsymbol{\mu}(\boldsymbol{\theta})]_{N}}{\partial \theta_{i}} \end{array}\right] \qquad \frac{\partial \mathbf{C}(\boldsymbol{\theta})}{\partial {\theta_i}}=\left[\begin{array}{cccc} \frac{\partial[\mathbf C(\boldsymbol{\theta})]_{11}}{\partial \theta_{i}} & \frac{\partial[\mathbf C(\boldsymbol{\theta})]_{12}}{\partial \theta_{i}} & \ldots & \frac{\partial[\mathbf C(\boldsymbol{\theta})]_{1N}}{\partial \theta_{i}} \\ \frac{\partial[\mathbf C(\boldsymbol{\theta})]_{21}}{\partial \theta_{i}} & \frac{\partial[\mathbf C(\boldsymbol{\theta})]_{22}}{\partial \theta_{i}} & \cdots & \frac{\partial[\mathbf C(\boldsymbol{\theta})]_{2N}}{\partial \theta_{i}} \\ \vdots & \vdots & \ddots & \vdots \\ \frac{\partial[\mathbf C(\boldsymbol{\theta})]_{N1}}{\partial \theta_{i}} & \frac{\partial[\mathbf C(\boldsymbol{\theta})]_{N2}}{\partial \theta_{i}} & \cdots & \frac{\partial[\mathbf C(\boldsymbol{\theta})]_{NN}}{\partial \theta_{i}} \end{array}\right] ∂θi∂μ(θ)=⎣⎢⎢⎢⎢⎡∂θi∂[μ(θ)]1∂θi∂[μ(θ)]2⋮∂θi∂[μ(θ)]N⎦⎥⎥⎥⎥⎤∂θi∂C(θ)=⎣⎢⎢⎢⎢⎡∂θi∂[C(θ)]11∂θi∂[C(θ)]21⋮∂θi∂[C(θ)]N1∂θi∂[C(θ)]12∂θi∂[C(θ)]22⋮∂θi∂[C(θ)]N2…⋯⋱⋯∂θi∂[C(θ)]1N∂θi∂[C(θ)]2N⋮∂θi∂[C(θ)]NN⎦⎥⎥⎥⎥⎤
对于参数 θ \theta θ是标量情况
x ∼ N ( μ ( θ ) , C ( θ ) ) \mathbf{x} \sim \mathcal{N}(\boldsymbol{\mu}(\theta), \mathbf{C}(\theta)) x∼N(μ(θ),C(θ))
费雪信息则为
[ I ( θ ) ] i j = [ ∂ μ ( θ ) ∂ θ ] T C − 1 ( θ ) [ ∂ μ ( θ ) ∂ θ ] + 1 2 tr [ ( C − 1 ( θ ) ∂ C ( θ ) ∂ θ ) 2 ] (3.32) [\mathbf{I}(\theta)]_{i j} =\left[\frac{\partial \boldsymbol{\mu}(\theta)}{\partial \theta}\right]^{T} \mathbf{C}^{-1}(\theta)\left[\frac{\partial \boldsymbol{\mu}(\theta)}{\partial \theta}\right] +\frac{1}{2} \operatorname{tr}\left[\left(\mathbf{C}^{-1}(\theta) \frac{\partial \mathbf{C}(\theta)}{\partial \theta}\right)^2 \right]\tag{3.32} [I(θ)]ij=[∂θ∂μ(θ)]TC−1(θ)[∂θ∂μ(θ)]+21tr[(C−1(θ)∂θ∂C(θ))2](3.32)
总结
[ref.]Kay S M. Fundamentals of statistical signal processing: estimation theory[M]. Prentice-Hall, Inc., 1993. [ch.1-ch.3]