熵、条件熵、相对熵的介绍

熵的定义

熵是热力学中的概念,表示体系混乱程度的度量。在计算机领域中,熵通常用来表示信息的不确定性程度。信息量的度量就等于不确定性的多少,信息量越大,不确定性越高,熵越大。

例如:有人说广东下雪了。 我们是十分不确定的。因为广东几十年来下雪的次数寥寥无几。为了搞清楚,我们就要去看天气预报,新闻,询问在广东的朋友,而这就需要大量的信息,信息熵很高

例如:太阳从东边出来。这句话是确定的,信息量非常小,因此熵很小。

信息熵的定义

 

p(x)表示随机变量x发生的概率,0<=p(x)<=1,所以熵总是一个大于等于0 的数,

熵减:消除不确定性

 

 

条件熵

知道Y的情况,以及X和Y一起出现的概率,数学上称为联合概率P(X,Y)

。定义在Y条件下X的条件熵为

可以证明:H(X)>=H(X|Y),也就是说,多了Y,X的不确定性下降了。信息的作用在于消除不确定性。

互信息

互信息表示了两个随机变量的相关性,例如乌云和下雨,两个事物的相关性就很高。

假定现在有两个随机事件X和Y,他们的互信息定义如下

这个信息表明了随机变量X在指导Y条件下的不确定性,或者说条件熵H(X|Y)之间的差异,即

就是在了解Y的前提下,消除X的不确定性

互信息的取值范围是0<= I(X:Y) <=min(H(X),H(Y)),当X和Y完全相关时,它的取值是1,当X和Y完全不相关时,它的取值为0。

 

相对熵

相对熵(relative entropy),又被称为Kullback-Leibler散度(Kullback-Leibler divergence)或信息散度(information divergence),是两个概率分布(probability distribution)间差异的非对称性度量 [1] 。在在信息理论中,相对熵等价于两个概率分布的信息熵(Shannon entropy)的差值 [2] 。

相对熵是一些优化算法,例如最大期望算法(Expectation-Maximization algorithm, EM)的损失函数 [3] 。此时参与计算的一个概率分布为真实分布,另一个为理论(拟合)分布,相对熵表示使用理论分布拟合真实分布时产生的信息损耗

设P(X),Q(X) 是随机变量X 上的两个概率分布,则在离散和连续随机变量的情形下,相对熵的定义分别为

img

在同样的字符集上,假设存在另一个概率分布 ,假设存在另一个分布Q(x).如果用P(x)表示最优编码(即字符x的编码长度为log(1/p(x)),来为分布Q(x) 的字符编码,那么表示这些字符就会比理想情况多用一些比特数。相对熵就是用来衡量这种情况下平均每个字符多用的比特数,因此可以用来衡量两个分布的距离,即:

img

KL(P||Q)>=0且在P==Q时取0

 

 

相对熵的性质:

熵在决策树,信息熵和信息增益;EM算法损失函数定义,最大熵模型等处有应用。

 

内容来自:

吴军《数学之美》第二版

百度百科:https://baike.baidu.com/item/%E7%9B%B8%E5%AF%B9%E7%86%B5/4233536?fr=aladdin

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值