本文内容摘自Rodgers的Inverse methods for atmospheric sounding : Theory and Practice
这里主要讨论两种表征信息含量的测量:费舍尔信息矩阵(Fisher information matrix)和香农信息量 (Shannon information content)
1. 费舍尔信息矩阵
费舍尔信息矩阵产生于极大似然估计理论。似然函数,定义为,可以认为是给定y(测量值)情况下x(状态向量)的函数。在使用贝叶斯方法的背景下,当没有先验信息或当先验信息被认为具有与测量相同的性质(可以理解为一个虚拟的测量)时,它与后验相同。最大似然估计的思想是找到x的值使最大。根据克拉美罗不等式,标量x的方差满足
(1)
其中分母被称为费舍尔信息,并推广为一个矩阵
(2)
可以证明,两个独立的似然函数的乘积的信息矩阵是单个矩阵的和,因此两个独立测量的信息是可加的。
在高斯线性情况下,信息矩阵等于协方差矩阵的逆,所以可以解释方程中的项
(3)
作为信息矩阵,表示后验信息矩阵是先验信息矩阵和测量信息矩阵之和。
2. 香农信息量
香农对信息内容的定义源于信息论,它最初的目的是描述通信信道的信息承载能力,但其应用范围要广泛得多。信息量是一个标量,这里将首先从直接测量的角度讨论熵和信息,然后展示这些概念如何转移到间接测量和反演理论。
2.1 概率密度函数的熵
对于熵的概念,这里不再赘述,使用概率密度函数(pdf)作为系统的知识的度量,对于连续pdf,熵定义为
(4)
相比于热力学中熵的定义,信息熵中k=1,对数底为2,连续pdf下对应于。用一个测量函数M来代替dx,可得式(4)。这样的选择使得P/M是无量纲的,因此P=M对应于没有x的知识的状态。M的选择与热力学第三定律相似,在这种选择下,P=M决定了熵为0。这通常是个常数,所以可以省略,但是也可以解释为一个先验的pdf,此时式(4)是一个相对熵。
如果描述测量前的pdf,描述测量后的,则一次测量得到的信息量是信息熵的减少:
(5)
2.2 高斯分布的熵
将上述方程应用于标量高斯分布情况,并表明测量的信息内容是信噪比的对数。为了数值上的方便,使用自然对数,则高斯pdf的熵为:
(6)
积分式(6),可得
(7)
对于先验知识为方差为的高斯分布,后验为方差为的高斯分布,则一次测量得到的信息量为,即,信噪比的对数。
对于多元高斯分布,其pdf等价为独立的分布的乘积,独立分布的方差等于的特征值。而独立pdf的乘积的熵等于独立pdf的熵的和,即
(8)
因此,一个m元向量的多元高斯分布的熵为
(9)
行列式是特征值的乘积。对于一个概率常数,用一个椭球的表面进行描述(这是因为每个特征值都与椭球主轴的平方成正比),而上述乘积的平方根也与椭球的体积成正比。因此,pdf的熵是一个概率常数的表面内体积的对数,加上一个常数,取决于所选的曲面。它是pdf所占的状态空间的体积,描述了状态的知识。
当我们进行测量时,这个“不确定度的体积”减少,测量的信息量是该因子的下降的测量,信噪比的标量概念的推广。
零特征值,对应于一个奇异协方差矩阵,或者对应于确切已知的量,将导致对熵的负无穷贡献,以及主轴长度为零。这种项在计算信息量时应该取消,因为这些量测量前后的知识不变。然而,为了避免数学上的困难,最好先通过在测量空间或状态空间中不包括这些基向量来消除它们。但是,如果一个部分在测量前具有有限的方差,而在测量之后具有零方差,则该测量提供了无限的信息,这种测量可能是非物理的。
如果先验协方差是,后验协方差是,则一次测量获得的信息量为
(10)
2.3 线性高斯情况下的信息量
一次测量的信息量可以通过状态空间()或测量空间()来评估。两种情况下应该得到一样的值。在状态空间里它取决于测量前后的状态pdf的熵:
(11)
对于线性高斯模型,即前向模型可以表示为的情况下,
(12)
其中,,,分别是先验,噪声和后验协方差。
代入式(11),
(13)
在测量空间,信息量是y的先验估计与后验估计的熵的差
(14)
测量前,P(y)的协方差为
(15)
在这里,后验协方差为,则信息量为
(16)
需要注意的是,和具有相同的非零特征值,因此和都等于,其中是的一个奇异值。
则平均核矩阵可以表示为
(17)
因此,
(18)
根据式(11)可以将其与信息量联系起来,根据信号自由度的定义
(19)
可以得到信息量,信号自由度,K的奇异值以及平均核矩阵之间的关系:
(20)