熵
–
信息熵 Entropy
如果一个随机变量的取值范围为 X={x1,x2,...,xn} ,对应的概率为 p(X=xi)(i=1,2,..,n) 则随机变量X的信息熵为
H(X)=−∑x∈Xp(x)logp(x)
联合熵 Joint Entropy
如果 X,Y 是一对离散型随机变量 X,Y∼p(x,y) , X,Y 的联合熵 H(X,Y) 为:
H(X,Y)=∑x∈X∑y∈Y−p(x,y)logp(x,y)
联合熵实际上就是描述一对随机变量平均所需要的信息量。
p(xi,yi)
为
X=xi
,
Y=yi
时的概率。
条件熵 Conditional Entropy
给定随机变量
X
的情况下,随机变量
H(Y|X)=∑x∈Xp(x)H(Y|X=x) =∑x∈Xp(x)[−∑y∈Yp(y|x)logp(y|x)] =−∑x∈X∑y∈Yp(x)p(y|x)log(y|x) =−∑x∈X∑y∈Yp(x,y)log(y|x)
条件熵也可以写成:
H(Y|X)=H(X,Y)−H(X)
推导如下:
H(X,Y)=−∑x∈X∑y∈Yp(x,y)logp(x,y) =−∑x∈X∑y∈Yp(x,y)log[p(x)p(y|x)] =−∑x∈X∑y∈Yp(x,y)[logp(x)+logp(y|x)] =−∑x∈X∑y∈Y(p(x,y)logp(x)+p(x,y)logp(y|x)) =−∑x∈X∑y∈Yp(x,y)logp(x)−∑x∈X∑y∈Yp(x,y)logp(y|x) =−∑x∈X∑y∈Yp(x,y)logp(x)+H(Y|X) =−∑x∈Xlogp(x)∑y∈Yp(x,y)+H(Y|X) =−∑x∈Xlogp(x)p(x)+H(Y|X) =H(x)+H(Y|X)
互信息 Mutual Information
互信息(Mutual Information)度量两个事件集合之间的相关性(mutual dependence)
针对两个随机变量
X,Y
,假如其随机概率分别为
p(x),p(y)
,其联合概率分布
p(x,y)
,则
X,Y
的互信息
I(X;Y)
定义如下:
I(X;Y)=∑x∈X∑y∈Yp(x,y)logp(x,y)p(x)p(y)
假如随机变量
X
,
log(p(x,y)p(x)p(y))=log1=0
互信息也可以等价表示为:
I(X;Y)=H(X)−H(X|Y) =H(Y)−H(Y|X) =H(X)+X(Y)−H(X,Y)
证明如下:
I(X;Y)=∑x∈X∑y∈Yp(x,y)logp(x,y)p(x)p(y) =∑x∈X∑y∈Y(p(x,y)logp(x,y)p(x)−p(x,y)p(y)) =∑x∈X∑y∈Yp(x,y)logp(y|x)−∑y∈Ylogp(y)∑x∈Xp(x,y) =∑x∈X∑y∈Yp(x)p(y|x)logp(y|x)−∑y∈Ylogp(y)p(y) =∑x∈Xp(x)∑y∈Yp(y|x)logp(y|x)−H(Y) =−H(Y|X)+H(Y) =H(Y)–H(Y|X)
KL散度 Relative Entropy
设
p(x)
和
q(x)
是
X
取值的两个概率分布,则
可以把 Kullback-Leibler 散度看做两个分布 p(x) 和 q(x) 之间不相似程度的度量。相对熵常被用以衡量两个随机分布的差距。当两个随机分布相同时,其相对熵为0。当两个随机分布的差别增加时,其相对熵也增加。
互信息也可以表示为两个随机变量的边缘分布
X
和
I(X;Y)=DKL(p(x,y)||p(x)p(y))
需指出相对熵是不对称的,为此詹森和香农提出一种新的相对熵的计算方法,将上面的不等式两边取平均,即
JS(p||q)=12[DKL(p||q)+DKL(q||p)]