熵 Entropy -- 香农熵、相对熵、交叉熵、条件熵

快速概览:

香农熵 -- 熵的定义
交叉熵 -- 一般可做为分类模型的损失函数 (交叉熵是由相对熵转化过来的,交叉熵 = 相对熵 - 熵 ),对于采样的数据(训练集,熵H 是定值,故交叉熵 和 相对熵 做损失函数是等价的。)
相对熵 -- KL散度
条件熵 -- 信息增益(也叫互信息)= 熵 - 条件熵,决策树ID3算法依据就是信息增益 information gain

 

香农熵

1948 年,香农提出了“信息熵”(shāng) 的概念,解决了对信息的量化度量问题。

我们如何来量化度量信息量呢?以世界杯赛为例。大家都很关心谁会是冠军。假如我错过了看世界杯,赛后我问一个知道比赛结果的观众“哪支球队是冠军”? 他不愿意直接告诉我, 而要让我猜,并且我每猜一次,他要收一元钱才肯告诉我是否猜对了,那么我需要付给他多少钱才能知道谁是冠军呢? 我可以把球队编上号,从 1 到 32, 然后提问: “冠军的球队在 1-16 号中吗?” 假如他告诉我猜对了, 我会接着问: “冠军在 1-8 号中吗?” 假如他告诉我猜错了, 我自然知道冠军队在 9-16 中。 这样最多只需要五次, 我就能知道哪支球队是冠军。所以,谁是世界杯冠军这条消息的信息量只值五块钱。

此时可能会发现我们实际上可能不需要猜五次就能猜出谁是冠军,因为象巴西、德国、意大利这样的球队得冠军的可能性比日本、美国、韩国等队大的多。因此,我们第一次猜测时不需要把 32 个球队等分成两个组,而可以把少数几个最可能的球队分成一组,把其它队分成另一组。然后我们猜冠军球队是否在那几只热门队中。我们重复这样的过程,根据夺冠概率对剩下的候选球队分组,直到找到冠军队。这样,我们也许三次或四次就猜出结果。因此,当每个球队夺冠的可能性(概率)不等时,“谁世界杯冠军”的信息量的信息量比五比特少。香农指出,它的准确信息量应该是

                                                      

其中,  分别是这 32 个球队夺冠的概率。香农把它称为“信息熵” (Entropy),一般用符号 H 表示,单位是比特。可以推算当 32 个球队夺冠概率相同时,对应的信息熵等于五比特。

香农熵(Shannon entropy)在生物信息领域基因表达分析中也有广泛的应用,如一些或一个基因在不同组织材料中表达情况己知,但如何确定这些基因是组织特异性表达,还是广泛表达的,那我们就来计算这些基因在N个样本中的香农熵,结果越趋近于log2(N),则表明它是一个越广泛表达的基因,结果越趋近于0则表示它是一个特异表达的基因。  -- 吴军《数学之美》

更一般的:

相对熵 -- KL散度

非负性可用 Jensen不等式证明

参考https://zhuanlan.zhihu.com/p/39682125

JS散度也称JS距离,是KL散度的一种变形 -- 对称

交叉熵

互信息

一般的,熵H(Y) 与 条件熵H(Y|X) 之差成为互信息(mutual information)

决策树学习中的信息增益(information gain)等价于训练数据集中类与特征的互信息。

决策树ID3算法是基于信息增益的,C4.5算法基于信息增益比

互信息可以度量两个随机变量相关性,如果互信息为0,则两个随机变量独立(注意,不是“不相关”)。

 

Reference:

https://blog.csdn.net/tsyccnh/article/details/79163834

https://zhuanlan.zhihu.com/p/39682125

http://m.elecfans.com/article/677158.html   -- KL散度的应用

https://blog.csdn.net/weixinhum/article/details/85064685

 

 

 

 

 

 

 

  • 0
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值