本文摘抄自《信息论基础-第二版》第二章:熵、相对熵与互信息
3. 相对熵与互信息
熵是随机变量不确定度的度量;他也是平均意义上描述随机变量所需的信息量的度量。本节将介绍相对熵和互信息。
相对熵(Relative Entropy)是两个随机分布之间距离的度量。在统计学中,它对应的是似然比的对数期望。相对熵D(p||q)度量当真实分布为p而假定分布为q时的无效性。例如,一直随机变量的真实分布p,可以构造平均描述长度为H(p)的码。但是如果使用针对分布q的编码,那么在平均意义上就需要H(p)+D(p||q)比特来描述这个随机变量。
定义:两个概率密度函数为p(x)和q(x)之间的相对熵或Kullback-Leibler距离定义为
在上述定义中,我们约定,,。因此,若存在使得p(x)>0,q(x)=0,则有D(p||q)=∞。
稍后我们会证明相对熵总是非负的,而且,当且仅当p=q时为0.但是,由于相对熵并不对称,也不满足三角不等式,因此它实际上并非两个分布之间的真正距离。然后,将相对熵视作分布之间的距离往往会很有用。
现在来介绍互信息(mutual information),他是一个随机变量包含另一个随机变量信息量的度量。互信息也是在给定另一随机变量知识的条件下,原随机变量不确定度的缩减量。
定义:考虑两个随机变量X和Y,他们的联合概率密度函数为p(x,y),其边际概率密度函数分别为p(x)和p(y)。互信息I(X;Y)为联合分布p(x,y)和p(x)p(y)之间的相对熵,即:
例2.3.1 设,考虑上的两个分布p和q。设p(0)=1-r, p(1)=r及q(0)=1-s,q(1)=s,则
如果r=s,那么D(p||q)=D(q||p)=0。若r=1/2,s=1/4可以计算得到