《数学之美 ⋅ 第二版》第六章
1、信息熵:信息的度量
对于任一个随机变量
X
,它的信息熵定义如下:
变量的不确定性越大,信息熵越大,所需要的信息量越大。
2、信息的作用:消除不确定性
U′=U−I⋅⋅⋅⋅⋅⋅⋅(公式2.1)
其中
U
是不确定性,3、条件熵
条件熵公式:
H(X|Y)=−∑x∈X,y∈YP(x,y)logP(x|y)⋅⋅⋅⋅⋅⋅⋅(公式3.1)
公式说明,在了解Y的情况下,关于X的不确定性下降了。
4、互信息:相关性度量
互信息公式:
I(X;Y)=∑x∈X,y∈YlogP(x,y)P(x)P(y)⋅⋅⋅⋅⋅⋅⋅(公式4.1)
I(X;Y)=H(X)−H(X|Y)⋅⋅⋅⋅⋅⋅⋅(公式4.2)
公式4.2表明,互信息的意义表示:X的不确定性在了解了Y之后的下降值。 H(X) 表示X的不确定性, H(X|Y) 表示X在了解了Y之后的不确定值。互信息是一个取值在0到 min(H(X),H(Y)) 之间的函数,当X和Y完全相关时,它的取值是1;当二者完全无关时,它的取值是0。
互信息被广泛用于度量一些语言现象的相关性。例如词语的二义性(或称歧义性)。
5、相对熵
相对熵也用来衡量相关性,但和变量的互信息不同,它用来衡量两个取值为正数的函数的相关性,其定义如下:
KL(f(x)||g(x))=∑x∈Xf(x)⋅logf(x)g(x)⋅⋅⋅⋅⋅⋅⋅(公式5.1)
从公式中得出结论:
(a.)对于两个完全相同的函数,它们的相对熵为零;
(b.)相对熵越大,两个函数的差异性越大;反之,相对熵越小,两个函数的差异性越小;
(c.)对于概率分布或者概率密度函数,如果取值均大于零,相对熵可以度量两个随机分布的差异性。
需要指出的是,相对熵不是对称的,即:
KL(f(x)||g(x))≠KL(g(x)||f(x))⋅⋅⋅⋅⋅⋅⋅(公式5.2)
这样使用起来很不方便,为了让其对称,詹森和香农提出一种新的相对熵的计算方法,将公式5.1两边去平均,即:
JS(f(x)||g(x))=12[KL(f(x)||g(x))+KL(g(x)||f(x))]⋅⋅⋅⋅(公式5.3)