1. 估计量的衡量标准
对于参数估计问题,目前存在着很多估计算法。那么如何去衡量一个估计器(estimator, 也称估计量或估计算法)的性能,我们主要考量以下三个方面
- 无偏性(unbiased)。对于参数估计问题,设未知参数 θ \theta θ,估计器模型 θ ^ \hat{\theta} θ^。则有 E [ θ ^ ] = θ \mathbb{E}[\hat{\theta}]=\theta E[θ^]=θ。对于估计对象为随机变量,则有 E [ θ ^ ] = E [ θ ] \mathbb{E}[\hat{\theta}]=\mathbb{E}[\theta] E[θ^]=E[θ]。我们称满足这个条件的估计量为无偏估计量。
- 有效性(availability)。有效性刻画估计量到真实值的偏离程度, D ( θ ^ ) = E [ ( θ ^ − E [ θ ^ ] ) 2 ] D(\hat{\theta})=\mathbb{E}[(\hat{\theta}-\mathbb{E}[\hat{\theta}])^2] D(θ^)=E[(θ^−E[θ^])2],即若存在多种无偏估计器,我们称估计量方差最小的估计器是有效的。
- 一致性(consistency)。设 θ ^ \hat{\theta} θ^为未知参数 θ \theta θ的估计量,若当样本数 N → ∞ N\rightarrow \infty N→∞时,对于任意 ϵ > 0 \epsilon>0 ϵ>0,有 lim N → ∞ P { ∣ θ ^ − θ ∣ < ϵ } = 1 \lim\limits_{N\rightarrow \infty} P\left\{ {|\hat{\theta}-\theta|<\epsilon}\right\}=1 N→∞limP{ ∣θ^−θ∣<ϵ}=1。我们称 θ ^ \hat{\theta} θ^与 θ \theta θ是一致的。一致性所体现的是,当样本总数逐渐增加时,估计量逐渐收敛于真实值。
基于这三点考量,那么很自然我们会问,如何衡量一个无偏估计器是否是有效的。统计信号处理理论中的克拉美罗下界(Cramer-Rao Lower Bound,CRLB)就是衡量一个无偏估计器的有力工具。
2. 克拉美-罗下界(Scale Parameter 标量参数)
对于估计参数 θ \theta θ为标量时,假定PDF满足**“正则”**条件
E [ ∂ ln p ( x ; θ ) ∂ θ ] = 0 ( for any θ ) \mathbb{E}\left[{\frac{\partial \ln p(\boldsymbol{x};\theta)}{\partial \theta}}\right]=0\quad (\ \text{for any }\theta \ ) E[∂θ∂lnp(x;θ)]=0( for any θ )
其中数学期望对 p ( x ; θ ) p(\boldsymbol{x};\theta) p(x;θ)取。那么无偏估计量 θ ^ \hat{\theta} θ^的方差必然满足
D ( θ ^ ) ≥ 1 − E [ ∂ 2 ln p ( x ; θ ) ∂ θ 2 ] = 1 E [ ( ∂ ln p ( x ; θ ) ∂ θ ) 2 ] D(\hat{\theta}) \geq \frac{1}{-\mathbb{E}\left[{ \frac{\partial ^2\ln p(\boldsymbol{x};\theta)}{\partial \theta^2}}\right]}=\frac{1}{\mathbb{E}\left[{ \left(\frac{\partial \ln p(\boldsymbol{x};\theta)}{\partial \theta}\right)^2}\right]} D(θ^)≥−E[∂θ2∂2lnp(x;θ)]1=E[(∂θ∂lnp(x;θ))2]1
其中导数是在 θ \theta θ的真实值处求,数学期望是对 p ( x ; θ ) p(\boldsymbol{x};\theta) p(x;θ)取。因此,我们可以说一个无偏估计量 g ( x ) g(\boldsymbol{x}) g(x)达到CRLB,当且仅当,该估计量满足
∂ ln p ( x ; θ ) ∂ θ = I ( θ ) ( g ( x ) − θ ) \frac{\partial \ln p(\boldsymbol{x};\theta)}{\partial \theta} =\mathbf{I}(\theta)(g(\boldsymbol{x})-\theta) ∂θ∂lnp(x;θ)=I(θ)(g(x)−θ)
其中, I ( θ ) = − E [ ∂ 2 ln p ( x ; θ ) ∂ θ 2 ] \mathbf{I}(\theta)=-\mathbb{E}\left[{ \frac{\partial ^2\ln p(\boldsymbol{x};\theta)}{\partial \theta^2}}\right] I(θ)=−E[∂θ2∂2lnp(x;θ)],称为Fisher information。证明见附录A。
Remarks: CRLB是衡量一个无偏估计器是否有效的重要工具,也就是说,给定一个无偏估计器,我们可以利用克拉美-罗下界去判断这个估计器是否是最优的。
3. Example:线性高斯模型(Linear Gaussian model)
x = h θ + w , w ∼ N ( 0 , C w ) \boldsymbol{x}=\boldsymbol{h}\theta+\boldsymbol{w}, \quad \boldsymbol{w}\sim \mathcal{N}(\boldsymbol{0},\boldsymbol{C}_{\boldsymbol{w}}) x=hθ+w,w∼N(0,Cw)
其中 θ \theta θ是未知参数, x ∈ R p \boldsymbol{x}\in \mathbb{R}^p x∈Rp是观测值(observed signal), w \boldsymbol{w} w是均值为 0 \boldsymbol{0} 0,协方差矩阵为 C w \boldsymbol{C}_{\boldsymbol{w}} Cw的高斯噪声。
我们考虑如下估计器
θ ^ = ( h T C w − 1 h ) − 1 h T C w − 1 x \hat{\theta}=(\boldsymbol{h}^T\boldsymbol{C}_{\boldsymbol{w}}^{-1}\boldsymbol{h})^{-1}\boldsymbol{h}^T\boldsymbol{C}_{\boldsymbol{w}}^{-1}\boldsymbol{x} θ^=(hTCw−1h)−1hTCw−1x
对于该模型,其似然函数 p ( x ; θ ) p(\boldsymbol{x};\theta) p(x;θ)为
p ( x ; θ ) = 1 ( 2 π ) p / 2 ∣ C w ∣ 1 / 2 exp [ − 1 2 ( x − h θ ) T C w − 1 ( x − h θ ) ] p(\boldsymbol{x};\theta)=\frac{1}{(2\pi)^{p/2}|\boldsymbol{C}_{\boldsymbol{w}}|^{1/2}} \exp \left[{-\frac{1}{2}(\boldsymbol{x}-\boldsymbol{h}\theta)^T\boldsymbol{C}_{\boldsymbol{w}}^{-1}(\boldsymbol{x}-\boldsymbol{h}\theta)}\right] p(x;θ)=