基本概念
熵
如果X是一个离散随机变量,取值空间为
R
, 其概率分布为
H(x)=−∑p(x)log2p(x)
其中约定 0log0=0 ,对数以2为底的熵的单位为二进制位比特。
联合熵
如果 X,Y 是一对随机变量, X,Y ~ p(x,y) , X,Y 的联合熵H(X, Y)定义为:
H(X,Y)=−∑x∈X∑y∈Yp(x,y)logp(x,y)
在给定随机变量X的情况下, Y的条件熵H(Y|X)定义为:
H(Y|X)=∑x∈Xp(x)H(Y|X=x)=∑x∈Xp(x)[−∑y∈YP(y|x)logp(y|x)]=−∑x∈X∑y∈Yp(x,y)logp(y|x)
互信息
根据熵的连锁规则,有
H(X,Y)=H(X)+H(Y|X)=H(Y)+H(X|Y)
因此,
H(X)−H(X|Y)=H(Y)−H(Y|X)
这个差被称为互信息。记做 I(X,Y) , 它反应了在知道了Y之后,X的不确定性的减少量。展开之后,我们可以得到:
I(X,Y)=∑x,yp(x,y)logp(x,y)p(x)p(y)