互信息
通过上图可以看出,所谓互信息就是两个事件都有的信息量。
于是,在互信息定义的基础上使用jessen不等式,我们可以证明 是非负的,因此
,这里我们给出
的详细推导:
上面其他性质的证明类似。
直观地说,如果把熵 看作一个随机变量不确定度的量度,那么
就是
没有涉及到的
的部分的不确定度的量度。这就是“在
已知之后
的剩余不确定度的量”,于是第一个等式的右边就可以读作“
的不确定度,减去在
已知之后
的剩余不确定度的量”,此式等价于“移除知道
后
的不确定度的量”。这证实了互信息的直观意义为知道其中一个变量提供的另一个的信息量(即不确定度的减少量)。
注意到离散情形 ,于是
。因此
,我们可以制定”一个变量至少包含其他任何变量可以提供的与它有关的信息“的基本原理。
互信息也可以表示为两个随机变量的边缘分布 和
的乘积
相对于随机变量的联合熵
的相对熵:
此外,令 。则:
注意到,这里相对熵涉及到仅对随机变量 积分,表达式
现在以 为变量。于是互信息也可以理解为相对熵
的单变量分布
相对于给定
时
的条件分布
:分布
和
之间的平均差异越大,信息增益越大。