信息熵 Entropy

如果一个随机变量的取值范围为 X={x1,x2,...,xn} ,对应的概率为 p(X=xi)(i=1,2,..,n) 则随机变量X的信息熵为

H(X)=xXp(x)logp(x)

联合熵 Joint Entropy

如果 X,Y 是一对离散型随机变量 X,Yp(x,y) , X,Y 的联合熵 H(X,Y) 为:

H(X,Y)=xXyYp(x,y)logp(x,y)

联合熵实际上就是描述一对随机变量平均所需要的信息量。
p(xi,yi) X=xi , Y=yi 时的概率。

条件熵 Conditional Entropy

给定随机变量 X 的情况下,随机变量Y的条件熵为:

H(Y|X)=xXp(x)H(Y|X=x)   =xXp(x)[yYp(y|x)logp(y|x)]   =xXyYp(x)p(y|x)log(y|x)   =xXyYp(x,y)log(y|x)

条件熵也可以写成:

H(Y|X)=H(X,Y)H(X)

推导如下:

H(X,Y)=xXyYp(x,y)logp(x,y)    =xXyYp(x,y)log[p(x)p(y|x)]    =xXyYp(x,y)[logp(x)+logp(y|x)]    =xXyY(p(x,y)logp(x)+p(x,y)logp(y|x))    =xXyYp(x,y)logp(x)xXyYp(x,y)logp(y|x)    =xXyYp(x,y)logp(x)+H(Y|X)    =xXlogp(x)yYp(x,y)+H(Y|X)    =xXlogp(x)p(x)+H(Y|X)    =H(x)+H(Y|X)

互信息 Mutual Information

互信息(Mutual Information)度量两个事件集合之间的相关性(mutual dependence)
针对两个随机变量 X,Y ,假如其随机概率分别为 p(x),p(y) ,其联合概率分布 p(x,y) ,则 X,Y 的互信息 I(X;Y) 定义如下:

I(X;Y)=xXyYp(x,y)logp(x,y)p(x)p(y)

假如随机变量 X ,Y独立,则互信息为0,可由下式证明:

log(p(x,y)p(x)p(y))=log1=0

互信息也可以等价表示为:

I(X;Y)=H(X)H(X|Y)   =H(Y)H(Y|X)   =H(X)+X(Y)H(X,Y)

证明如下:

I(X;Y)=xXyYp(x,y)logp(x,y)p(x)p(y)   =xXyY(p(x,y)logp(x,y)p(x)p(x,y)p(y))   =xXyYp(x,y)logp(y|x)yYlogp(y)xXp(x,y)   =xXyYp(x)p(y|x)logp(y|x)yYlogp(y)p(y)   =xXp(x)yYp(y|x)logp(y|x)H(Y)   =H(Y|X)+H(Y)   =H(Y)H(Y|X)

KL散度 Relative Entropy

p(x) q(x) X 取值的两个概率分布,则p q 的相对熵为

DKL(p||q)=xXp(x)logp(x)q(x)

可以把 Kullback-Leibler 散度看做两个分布 p(x) q(x) 之间不相似程度的度量。相对熵常被用以衡量两个随机分布的差距。当两个随机分布相同时,其相对熵为0。当两个随机分布的差别增加时,其相对熵也增加。

互信息也可以表示为两个随机变量的边缘分布 X Y 的乘积 p(x)p(y) 相对于随机变量的联合熵 p(x,y) 的相对熵:

I(X;Y)=DKL(p(x,y)||p(x)p(y))

需指出相对熵是不对称的,为此詹森和香农提出一种新的相对熵的计算方法,将上面的不等式两边取平均,即

JS(p||q)=12[DKL(p||q)+DKL(q||p)]

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值