一、背景
熵是热力学中的一个重要的概念,最早是由香农(Claude Shannon)将熵应用于信息的度量。
熵(Entropy)是描述事物无序性的一个重要的参数,熵越大则无序性越强,同时,熵表示一个随机变量的不确定性。
二、熵
1、信息熵
香农指出,一条信息的信息量和它的不确定性之间有着直接的关系。因此可以使用信息熵来描述信息量的多少。
信息熵的定义为:设一个随机变量
X
,其可能的
信息熵表示的是随机变量 X 可能的变化,若随机变量的变化越多,那么其信息量越大。而与随机变量的具体取值无关,只与其值的类别以及每种类别的概率有关。
2、条件熵
条件熵(Conditional Entropy)的定义为:设两个随机变量
对于上述的条件熵的定义,可由下面的推理得到:
3、联合熵
联合熵和联合分布的概念类似,联合熵指的是多个随机变量的熵。联合熵的定义为:设两个随机变量
X
,
其中,条件熵,联合熵和熵之间的关系为:
对于上式的证明如下:
对于联合熵,有一些性质,如下所示:
- H(X,Y)⩾H(X)
- H(X,Y)⩽H(X)+H(Y)
- H(X,Y)⩾0
4、相对熵
相对熵,又称为交叉熵或者KL距离或者KL散度。主要是用来度量两个概率分布之间的差异程度。假设两个概率分布 P(x) 和 Q(x) ,用 D(P∥Q) 表示两个分布之间的KL散度:
当两个分布完全相同时,此时KL散度为 0 。
三、互信息
KL距离衡量的是相同的事件空间里的两个事件的相似程度,而互信息衡量的是不同事件空间中的两个信息的相关性。设两个随机变量
互信息就是随机事件
X
的熵
由上述的定义可知,互信息与信息增益等价。
参考文献
- 数学之美