大气测量反演中的费舍尔信息矩阵和香农信息量

fosburning

已于 2024-07-31 17:01:59 修改

阅读量541

点赞数 21

文章标签：概率论

于 2024-07-31 16:40:53 首次发布

本文链接：https://blog.csdn.net/ooooooopppppp/article/details/140800546

版权

本文内容摘自Rodgers的Inverse methods for atmospheric sounding : Theory and Practice

这里主要讨论两种表征信息含量的测量：费舍尔信息矩阵（Fisher information matrix）和香农信息量（Shannon information content）

1. 费舍尔信息矩阵

费舍尔信息矩阵产生于极大似然估计理论。似然函数，定义为 $P(y|x)$ ，可以认为是给定y（测量值）情况下x（状态向量）的函数。在使用贝叶斯方法的背景下，当没有先验信息或当先验信息被认为具有与测量相同的性质（可以理解为一个虚拟的测量）时，它与后验 $P(x|y)$ 相同。最大似然估计的思想是找到x的值使 $L(x)=P(y|x)$ 最大。根据克拉美罗不等式，标量x的方差满足

$var(x)\geq \frac{1}{\varepsilon (\frac{\partial lnL}{\partial x})^{2} }$ (1)

其中分母被称为费舍尔信息，并推广为一个矩阵

$F=\varepsilon [(\frac{\partial lnL}{\mathbf x})(\frac{\partial lnL}{\mathbf x})^{T}]=\int L(\mathbf x)(\frac{\partial lnL(\mathbf x)}{\mathbf x})(\frac{\partial lnL(\mathbf x)}{\mathbf x})^{T}d\mathbf x$ (2)

可以证明，两个独立的似然函数的乘积 $P(y_{1}|x)P(y_{2}|x)$ 的信息矩阵是单个矩阵的和，因此两个独立测量的信息是可加的。

在高斯线性情况下，信息矩阵等于协方差矩阵的逆，所以可以解释方程中的项

$\mathbf{\hat{S}}^{-1}=\mathbf K^{T}\mathbf{{S}}^{-1}_\varepsilon \mathbf K+\mathbf{{S}}^{-1}_a$ （3）

作为信息矩阵，表示后验信息矩阵是先验信息矩阵和测量信息矩阵之和。

2. 香农信息量

香农对信息内容的定义源于信息论，它最初的目的是描述通信信道的信息承载能力，但其应用范围要广泛得多。信息量是一个标量，这里将首先从直接测量的角度讨论熵和信息，然后展示这些概念如何转移到间接测量和反演理论。

2.1 概率密度函数的熵

对于熵的概念，这里不再赘述，使用概率密度函数（pdf）作为系统的知识的度量，对于连续pdf，熵定义为

$S(P)=-\int P(x)\log_2[P(x)/M(x)] \mathrm{d}x$ （4）

相比于热力学中熵的定义 $S(P)=-k\sum_{i}^{} p_i\ln p_i$ ,信息熵中k=1，对数底为2，连续pdf下 $p_i$ 对应于 $P(x)dx$ 。用一个测量函数M来代替dx，可得式（4）。这样的选择使得P/M是无量纲的，因此P=M对应于没有x的知识的状态。M的选择与热力学第三定律相似，在这种选择下，P=M决定了熵为0。这通常是个常数，所以可以省略，但是也可以解释为一个先验的pdf，此时式（4）是一个相对熵。

如果 $P_1(x)$ 描述测量前的pdf， $P_2(x)$ 描述测量后的，则一次测量得到的信息量是信息熵的减少：

$H=S(P_1)-S(P_2)$ （5）

2.2 高斯分布的熵

将上述方程应用于标量高斯分布情况，并表明测量的信息内容是信噪比的对数。为了数值上的方便，使用自然对数，则高斯pdf的熵为：

$S=\frac{1}{(2\pi)^{\frac{1}{2}}\sigma}\int\exp\left\{-\frac{(x-\bar{x})^{2}}{2\sigma^{2}}\right\}\left(\ln[(2\pi)^{\frac{1}{2}}\sigma]+\frac{(x-\bar{x})^{2}}{2\sigma^{2}}\right) \mathrm{d}x$ （6）

积分式（6），可得

$S=\ln\sigma(2\pi\mathrm{e})^{1/2}$ （7）

对于先验知识为方差为 $\sigma _{1}^{2}$ 的高斯分布，后验为方差为 $\sigma _{2}^{2}$ 的高斯分布，则一次测量得到的信息量为 $ln(\sigma_{1}/\sigma_{2})$ ，即，信噪比的对数。

对于多元高斯分布，其pdf等价为独立的分布的乘积，独立分布的方差等于 $S_y$ 的特征值。而独立pdf的乘积的熵等于独立pdf的熵的和，即

$S[P(x)P(y)]=S[P(x)]+S[P(y)]$ (8)

因此，一个m元向量的多元高斯分布的熵为

$\begin{aligned} S[P(\mathbf{y})]& =\quad\sum_{i=1}^{m}\ln(2\pi e\lambda_{i})^{\frac{1}{2}} \\ &=\quad m\ln(2\pi\mathrm{e})^{\frac{1}{2}}+\frac{1}{2}\ln(\prod_{i}\lambda_{i}) \\ &=\quad m\ln(2\pi\mathrm{e})^{\frac{1}{2}}+\frac{1}{2}\ln|S_{y}| \end{aligned}$ （9）

行列式是特征值的乘积。对于一个概率常数，用一个椭球的表面进行描述（这是因为每个特征值都与椭球主轴的平方成正比），而上述乘积的平方根也与椭球的体积成正比。因此，pdf的熵是一个概率常数的表面内体积的对数，加上一个常数，取决于所选的曲面。它是pdf所占的状态空间的体积，描述了状态的知识。

当我们进行测量时，这个“不确定度的体积”减少，测量的信息量是该因子的下降的测量，信噪比的标量概念的推广。

零特征值，对应于一个奇异协方差矩阵，或者对应于确切已知的量，将导致对熵的负无穷贡献，以及主轴长度为零。这种项在计算信息量时应该取消，因为这些量测量前后的知识不变。然而，为了避免数学上的困难，最好先通过在测量空间或状态空间中不包括这些基向量来消除它们。但是，如果一个部分在测量前具有有限的方差，而在测量之后具有零方差，则该测量提供了无限的信息，这种测量可能是非物理的。

如果先验协方差是 $S_1$ ，后验协方差是 $S_2$ ，则一次测量获得的信息量为

$H=\frac{1}{2}\ln|\mathbf{S}_{1}|-\frac{1}{2}\ln|\mathbf{S}_{2}|=\frac{1}{2}\ln|\mathbf{S}_{1}\mathbf{S}_{2}^{-1}|=-\frac{1}{2}\ln|\mathbf{S}_{2}\mathbf{S}_{1}^{-1}|$ （10）

2.3 线性高斯情况下的信息量

一次测量的信息量可以通过状态空间（ $H_s$ ）或测量空间（ $H_m$ ）来评估。两种情况下应该得到一样的值。在状态空间里它取决于测量前后的状态pdf的熵：

$\begin{aligned}H_{s}&=\quad S[P(\mathbf{x})]-S[P(\mathbf{x}|\mathbf{y})]\\&=\quad\frac{1}{2}\ln|\mathbf{S}_{a}|-\frac{1}{2}\ln|\mathbf{\hat{S}}|\\&=\quad\frac{1}{2}\ln|\hat{\mathbf{S}}^{-1}\mathbf{S}_{a}|\end{aligned}$ （11）

对于线性高斯模型，即前向模型可以表示为 $\mathbf{y}=\mathbf{F}(\mathbf{x})+\epsilon=\mathbf{Kx}+\epsilon$ 的情况下，

$\mathbf{\hat{S}}^{-1}=\mathbf{K}^{T}\mathbf{S}_{\epsilon}^{-1}\mathbf{K}+\mathbf{S}_{a}^{-1}$ （12）

其中， $S_a$ ， $S_\epsilon$ ， $\hat S$ 分别是先验，噪声和后验协方差。

代入式（11），

$\begin{aligned} {H}_s& =\quad\frac{1}{2}\ln|(\mathbf{K}^{r}\mathbf{S}_{\epsilon}^{-1}\mathbf{K}+\mathbf{S}_{a}^{-1})\mathbf{S}_{a}| \\ &=\quad\frac{1}{2}\ln|\mathbf{S}_{a}^{\frac{1}{2}}\mathbf{K}^{T}\mathbf{S}_{\epsilon}^{-1}\mathbf{K}\mathbf{S}_{a}^{\frac{1}{2}}+\mathbf{I}_{n}| \\ &=\quad\frac{1}{2}\ln|\tilde{\mathbf{K}}^{T}\tilde{\mathbf{K}}+\mathbf{I}_{n}| \end{aligned}$ (13)

在测量空间，信息量是y的先验估计与后验估计的熵的差

$H_{\mathrm{m}}=S[P(\mathbf{y})]-S[P(\mathbf{y}|\mathbf{x})]$ （14）

测量前，P(y)的协方差为

$\begin{aligned}\mathbf{S}_{y_{a}}&=\quad\mathcal{E}\{(\mathbf{y}-\mathbf{y}_{a})(\mathbf{y}-\mathbf{y}_{a})^{T}\}\\&=\quad\mathcal{E}\{\mathbf{K}(\mathbf{x}-\mathbf{x}_{a})(\mathbf{x}-\mathbf{x}_{a})^{T}\mathbf{K}^{T}+\epsilon\epsilon^{T}\}\\&=\quad\mathbf{KS}_{a}\mathbf{K}^{T}+\mathbf{S}_{\epsilon}\end{aligned}$ （15）

在这里，后验协方差为 $S_\epsilon$ ，则信息量为

$\begin{aligned}H_{\mathrm{m}}&=\quad\frac{1}{2}\ln|\mathbf{S}_{\epsilon}^{-1}(\mathbf{K}\mathbf{S}_{a}\mathbf{K}^{T}+\mathbf{S}_{\epsilon})|\\&=\quad\frac{1}{2}\ln|\mathbf{S}_{\epsilon}^{-\frac{1}{2}}\mathbf{K}\mathbf{S}_{a}\mathbf{K}^{T}\mathbf{S}_{\epsilon}^{-\frac{1}{2}}+\mathbf{I}_{m}|\\&=\quad\frac{1}{2}\ln|\tilde{\mathbf{K}}\tilde{\mathbf{K}}^{T}+\mathbf{I}_{m}|\end{aligned}$ (16)

需要注意的是， $\tilde{\mathbf{K}}\tilde{\mathbf{K}}^T$ 和 $\tilde{\mathbf{K}}^T\tilde{\mathbf{K}}$ 具有相同的非零特征值，因此 $H_m$ 和 $H_a$ 都等于 $\sum_{i}\frac12\ln(1+\lambda_i^2)$ ，其中 $\lambda_{i}$ 是 $\tilde K$ 的一个奇异值。

则平均核矩阵可以表示为

$\mathbf{A}=\mathbf{G}\mathbf{K}=(\mathbf{K}^{T}\mathbf{S}_{\epsilon}^{-1}\mathbf{K}+\mathbf{S}_{a}^{-1})^{-1}\mathbf{K}^{T}\mathbf{S}_{\epsilon}^{-1}\mathbf{K}$ (17)

因此，

$\mathbf{I}-\mathbf{A}=(\mathbf{K}^{T}\mathbf{S}_{\epsilon}^{-1}\mathbf{K}+\mathbf{S}_{a}^{-1})^{-1}\mathbf{S}_{a}^{-1}=\mathbf{\hat{S}}\mathbf{S}_{a}^{-1}$ (18)

根据式（11）可以将其与信息量联系起来，根据信号自由度的定义

$d_{s}=\mathrm{tr}([\mathbf{K}^{T}\mathbf{S}_{\epsilon}^{-1}\mathbf{K}+\mathbf{S}_{a}^{-1}]^{-1}\mathbf{K}^{T}\mathbf{S}_{\epsilon}^{-1}\mathbf{K})$ (19)

可以得到信息量，信号自由度，K的奇异值以及平均核矩阵之间的关系：

$\begin{aligned}&H=\quad\frac{1}{2}\sum_{i}\ln(1+\lambda_{i}^{2})=\quad-\frac{1}{2}\ln|\mathbf{I}_{n}-\mathbf{A}|\\&d_{s}=\quad\sum_{i}\lambda_{i}^{2}/(1+\lambda_{i}^{2})=\quad\mathrm{tr}(\mathbf{A})\end{aligned}$ （20）