大气测量反演中的费舍尔信息矩阵和香农信息量

本文内容摘自Rodgers的Inverse methods for atmospheric sounding : Theory and Practice

这里主要讨论两种表征信息含量的测量:费舍尔信息矩阵(Fisher information matrix)和香农信息量 (Shannon information content)

1. 费舍尔信息矩阵

费舍尔信息矩阵产生于极大似然估计理论。似然函数,定义为P(y|x),可以认为是给定y(测量值)情况下x(状态向量)的函数。在使用贝叶斯方法的背景下,当没有先验信息或当先验信息被认为具有与测量相同的性质(可以理解为一个虚拟的测量)时,它与后验P(x|y)相同。最大似然估计的思想是找到x的值使L(x)=P(y|x)最大。根据克拉美罗不等式,标量x的方差满足

var(x)\geq \frac{1}{\varepsilon (\frac{\partial lnL}{\partial x})^{2} }                                                                                     (1)

其中分母被称为费舍尔信息,并推广为一个矩阵

F=\varepsilon [(\frac{\partial lnL}{\mathbf x})(\frac{\partial lnL}{\mathbf x})^{T}]=\int L(\mathbf x)(\frac{\partial lnL(\mathbf x)}{\mathbf x})(\frac{\partial lnL(\mathbf x)}{\mathbf x})^{T}d\mathbf x                                      (2)

可以证明,两个独立的似然函数的乘积P(y_{1}|x)P(y_{2}|x)的信息矩阵是单个矩阵的和,因此两个独立测量的信息是可加的。

在高斯线性情况下,信息矩阵等于协方差矩阵的逆,所以可以解释方程中的项

\mathbf{\hat{S}}^{-1}=\mathbf K^{T}\mathbf{​{S}}^{-1}_\varepsilon \mathbf K+\mathbf{​{S}}^{-1}_a                                                                            (3)

作为信息矩阵,表示后验信息矩阵是先验信息矩阵和测量信息矩阵之和。

2. 香农信息量

香农对信息内容的定义源于信息论,它最初的目的是描述通信信道的信息承载能力,但其应用范围要广泛得多。信息量是一个标量,这里将首先从直接测量的角度讨论熵和信息,然后展示这些概念如何转移到间接测量和反演理论。

2.1 概率密度函数的熵

对于熵的概念,这里不再赘述,使用概率密度函数(pdf)作为系统的知识的度量,对于连续pdf,熵定义为

S(P)=-\int P(x)\log_2[P(x)/M(x)] \mathrm{d}x                                                                                      (4)

相比于热力学中熵的定义S(P)=-k\sum_{i}^{} p_i\ln p_i,信息熵中k=1,对数底为2,连续pdf下p_i对应于P(x)dx。用一个测量函数M来代替dx,可得式(4)。这样的选择使得P/M是无量纲的,因此P=M对应于没有x的知识的状态。M的选择与热力学第三定律相似,在这种选择下,P=M决定了熵为0。这通常是个常数,所以可以省略,但是也可以解释为一个先验的pdf,此时式(4)是一个相对熵。

如果P_1(x)描述测量前的pdf,P_2(x)描述测量后的,则一次测量得到的信息量是信息熵的减少:

H=S(P_1)-S(P_2)                                                                                (5)

2.2 高斯分布的熵

将上述方程应用于标量高斯分布情况,并表明测量的信息内容是信噪比的对数。为了数值上的方便,使用自然对数,则高斯pdf的熵为:

S=\frac{1}{(2\pi)^{\frac{1}{2}}\sigma}\int\exp\left\{-\frac{(x-\bar{x})^{2}}{2\sigma^{2}}\right\}\left(\ln[(2\pi)^{\frac{1}{2}}\sigma]+\frac{(x-\bar{x})^{2}}{2\sigma^{2}}\right) \mathrm{d}x                              (6)

积分式(6),可得

S=\ln\sigma(2\pi\mathrm{e})^{1/2}                                                                               (7)

对于先验知识为方差为\sigma _{1}^{2}的高斯分布,后验为方差为\sigma _{2}^{2}的高斯分布,则一次测量得到的信息量为ln(\sigma_{1}/\sigma_{2}),即,信噪比的对数。

对于多元高斯分布,其pdf等价为独立的分布的乘积,独立分布的方差等于S_y的特征值。而独立pdf的乘积的熵等于独立pdf的熵的和,即

S[P(x)P(y)]=S[P(x)]+S[P(y)]                                                                  (8)

因此,一个m元向量的多元高斯分布的熵为

\begin{aligned} S[P(\mathbf{y})]& =\quad\sum_{i=1}^{m}\ln(2\pi e\lambda_{i})^{\frac{1}{2}} \\ &=\quad m\ln(2\pi\mathrm{e})^{\frac{1}{2}}+\frac{1}{2}\ln(\prod_{i}\lambda_{i}) \\ &=\quad m\ln(2\pi\mathrm{e})^{\frac{1}{2}}+\frac{1}{2}\ln|S_{y}| \end{aligned}                                                             (9)

行列式是特征值的乘积。对于一个概率常数,用一个椭球的表面进行描述(这是因为每个特征值都与椭球主轴的平方成正比),而上述乘积的平方根也与椭球的体积成正比。因此,pdf的熵是一个概率常数的表面内体积的对数,加上一个常数,取决于所选的曲面。它是pdf所占的状态空间的体积,描述了状态的知识。

当我们进行测量时,这个“不确定度的体积”减少,测量的信息量是该因子的下降的测量,信噪比的标量概念的推广。

零特征值,对应于一个奇异协方差矩阵,或者对应于确切已知的量,将导致对熵的负无穷贡献,以及主轴长度为零。这种项在计算信息量时应该取消,因为这些量测量前后的知识不变。然而,为了避免数学上的困难,最好先通过在测量空间或状态空间中不包括这些基向量来消除它们。但是,如果一个部分在测量前具有有限的方差,而在测量之后具有零方差,则该测量提供了无限的信息,这种测量可能是非物理的。

如果先验协方差是S_1,后验协方差是S_2,则一次测量获得的信息量为

H=\frac{1}{2}\ln|\mathbf{S}_{1}|-\frac{1}{2}\ln|\mathbf{S}_{2}|=\frac{1}{2}\ln|\mathbf{S}_{1}\mathbf{S}_{2}^{-1}|=-\frac{1}{2}\ln|\mathbf{S}_{2}\mathbf{S}_{1}^{-1}|                                (10)

2.3 线性高斯情况下的信息量

一次测量的信息量可以通过状态空间(H_s)或测量空间(H_m)来评估。两种情况下应该得到一样的值。在状态空间里它取决于测量前后的状态pdf的熵:

\begin{aligned}H_{s}&=\quad S[P(\mathbf{x})]-S[P(\mathbf{x}|\mathbf{y})]\\&=\quad\frac{1}{2}\ln|\mathbf{S}_{a}|-\frac{1}{2}\ln|\mathbf{\hat{S}}|\\&=\quad\frac{1}{2}\ln|\hat{\mathbf{S}}^{-1}\mathbf{S}_{a}|\end{aligned}                                                                        (11)

对于线性高斯模型,即前向模型可以表示为\mathbf{y}=\mathbf{F}(\mathbf{x})+\epsilon=\mathbf{Kx}+\epsilon的情况下,

\mathbf{\hat{S}}^{-1}=\mathbf{K}^{T}\mathbf{S}_{\epsilon}^{-1}\mathbf{K}+\mathbf{S}_{a}^{-1}                                                                                (12)

其中,S_aS_\epsilon\hat S分别是先验,噪声和后验协方差。

代入式(11),

\begin{aligned} {H}_s& =\quad\frac{1}{2}\ln|(\mathbf{K}^{r}\mathbf{S}_{\epsilon}^{-1}\mathbf{K}+\mathbf{S}_{a}^{-1})\mathbf{S}_{a}| \\ &=\quad\frac{1}{2}\ln|\mathbf{S}_{a}^{\frac{1}{2}}\mathbf{K}^{T}\mathbf{S}_{\epsilon}^{-1}\mathbf{K}\mathbf{S}_{a}^{\frac{1}{2}}+\mathbf{I}_{n}| \\ &=\quad\frac{1}{2}\ln|\tilde{\mathbf{K}}^{T}\tilde{\mathbf{K}}+\mathbf{I}_{n}| \end{aligned}                                                                   (13)

在测量空间,信息量是y的先验估计与后验估计的熵的差

H_{\mathrm{m}}=S[P(\mathbf{y})]-S[P(\mathbf{y}|\mathbf{x})]                                                                          (14)

测量前,P(y)的协方差为

\begin{aligned}\mathbf{S}_{y_{a}}&=\quad\mathcal{E}\{(\mathbf{y}-\mathbf{y}_{a})(\mathbf{y}-\mathbf{y}_{a})^{T}\}\\&=\quad\mathcal{E}\{\mathbf{K}(\mathbf{x}-\mathbf{x}_{a})(\mathbf{x}-\mathbf{x}_{a})^{T}\mathbf{K}^{T}+\epsilon\epsilon^{T}\}\\&=\quad\mathbf{KS}_{a}\mathbf{K}^{T}+\mathbf{S}_{\epsilon}\end{aligned}                                           (15)

在这里,后验协方差为S_\epsilon,则信息量为

\begin{aligned}H_{\mathrm{m}}&=\quad\frac{1}{2}\ln|\mathbf{S}_{\epsilon}^{-1}(\mathbf{K}\mathbf{S}_{a}\mathbf{K}^{T}+\mathbf{S}_{\epsilon})|\\&=\quad\frac{1}{2}\ln|\mathbf{S}_{\epsilon}^{-\frac{1}{2}}\mathbf{K}\mathbf{S}_{a}\mathbf{K}^{T}\mathbf{S}_{\epsilon}^{-\frac{1}{2}}+\mathbf{I}_{m}|\\&=\quad\frac{1}{2}\ln|\tilde{\mathbf{K}}\tilde{\mathbf{K}}^{T}+\mathbf{I}_{m}|\end{aligned}                                                           (16)

需要注意的是,\tilde{\mathbf{K}}\tilde{\mathbf{K}}^T\tilde{\mathbf{K}}^T\tilde{\mathbf{K}}具有相同的非零特征值,因此H_mH_a都等于\sum_{i}\frac12\ln(1+\lambda_i^2),其中\lambda_{i}\tilde K的一个奇异值。

则平均核矩阵可以表示为

\mathbf{A}=\mathbf{G}\mathbf{K}=(\mathbf{K}^{T}\mathbf{S}_{\epsilon}^{-1}\mathbf{K}+\mathbf{S}_{a}^{-1})^{-1}\mathbf{K}^{T}\mathbf{S}_{\epsilon}^{-1}\mathbf{K}                                                       (17)

因此,

\mathbf{I}-\mathbf{A}=(\mathbf{K}^{T}\mathbf{S}_{\epsilon}^{-1}\mathbf{K}+\mathbf{S}_{a}^{-1})^{-1}\mathbf{S}_{a}^{-1}=\mathbf{\hat{S}}\mathbf{S}_{a}^{-1}                                                       (18)

根据式(11)可以将其与信息量联系起来,根据信号自由度的定义

d_{s}=\mathrm{tr}([\mathbf{K}^{T}\mathbf{S}_{\epsilon}^{-1}\mathbf{K}+\mathbf{S}_{a}^{-1}]^{-1}\mathbf{K}^{T}\mathbf{S}_{\epsilon}^{-1}\mathbf{K})                                                              (19)

可以得到信息量,信号自由度,K的奇异值以及平均核矩阵之间的关系:

\begin{aligned}&H=\quad\frac{1}{2}\sum_{i}\ln(1+\lambda_{i}^{2})=\quad-\frac{1}{2}\ln|\mathbf{I}_{n}-\mathbf{A}|\\&d_{s}=\quad\sum_{i}\lambda_{i}^{2}/(1+\lambda_{i}^{2})=\quad\mathrm{tr}(\mathbf{A})\end{aligned}                                             (20)

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值