一文总览由信息论中“熵”引申出来的各种距离/差异度量

a8b9cd4cf688472bf007a62d5680606b.gif

©作者 | 张维鸿

单位 | 中科院深先院

研究方向 | 计算生物学、迁移学习

6a3f96cfe1a2bd2b8ef01c22628119f9.png

信息熵

物理中热力学定律告诉我们世界是朝着熵增的,i.e.,混乱的方向演化的。越混乱的场景熵越大,熵是与不确定性正相关的。信息论中,熵反映了信息中包含的信息量的多少,越不确定的事件(概率 越小)包含的信息量越大:。于是,有

1.1 熵Entropy

假设事件 共有 种可能,发生 的概率为 ,那么事件 的熵定义为:

7cd2810c39b0c4b72ee66038ad5441cb.png

聪明的读者不难发现,熵就是事件 的信息量的期望,以概率 对事件的所有可能性加权的和。

1.2 条件熵Conditional Entropy

对于两个事件 ,条件熵是已知一个事件(如 )时另一个事件(如 )剩余的信息量:

ce709a3d70a3bd2e775b8d59317ff3f6.png

由条件概率和联合概率的关系 ,于是:

9e2ff261d9e4f883e57b53a402f0f0dd.png

1.3 联合熵Joint Entropy


联合概率 对应的联合事件的熵:

54e5021d94a2d576578ce5eece78b894.png

当事件, 独立时,由 知:

1226e5a5ecd233924a9c25af38cb5c7e.png

1.4 互信息Mutual Information

事件 重合部分的信息量, 的 intersection,定义为:

45d28aa5a671774df30c8d6efbffe31a.png

关系辩解

237f3a4f196dc2ad2b16a973ce9acb22.png

四者的关系见上图,即:

  • 条件熵+互信息=熵(CE + MI = E)

a0efb3200db6f859b8c844a28b38209a.png

  • 熵+条件熵=联合熵(CE1 + CE2 + MI = EI + CE2 = JE)

c5b7f4bdce15485abf6bc0dd401f74b5.png

8d71c208969b77cfc5a18640bac74979.png

差异度量(KL+)

信息熵可以衡量已知一个事件后另一个事件中未知的信息量,未知的信息量越少则两个事件重合度越高,从而,信息熵可以拓展到度量两个分布的距离/差异。

2.1 交叉熵Cross Entropy

回顾1.1中,熵是事件 的信息量的期望,即对事件的所有可能性加权和。假设事件 有真实分布 预测分布 ,

交叉熵的“交叉”体现在用真实分布概率 加权预测分布的信息量 :

493b0934d6d857fcc604c8beefabbae0.png

2.2 KL散度Kullback-Leibler Divergence(相对熵Relative Entropy)

相对熵的关键在于“相对”,“相对”体现在真实分布与预测分布的概率之比以真实分布概率加权,(前向)KL 散度定义为:

9326f5e290c255d8946c57abde15b49b.png

对上式进行变换,可知

032150f7a1252d7ec08ec735aa39f94a.png

也即:KL散度 = 交叉熵 - 熵

显然,KL 散度不满足对称性,也不满足三角不等式,所以KL散度并不是距离。

✔ 值得注意的是:

在实际应用场景中,真实分布是确定的,故 H(p) 是常数,所以 KL 散度与交叉熵仅相差一个常数,从而,在分类任务中,评估预测分布与真实分布的差异可以用交叉熵损失度量。这就是有监督多分类任务一般用交叉熵损失而不用 KL 散度作为目标函数优化的原因。

  • 相对熵的一些理解:

由 可知,当预测分布 与真实分布 完全一致时 KL 散度为 0,预测越逼近真实分布则 KL 散度越小。

又由加权系数 可知 KL 散度着重在真实分布中概率大的地方让预测逼近,极端情况下 处预测分布与真实分布的差异大小不予考虑。如图例,着重让预测 在两峰逼近 ,而忽略谷点:

c42abd438adfd84c787ad1b5ec97e455.png

  • KL 散度 与互信息 的关系:

8b8896ab6f7cfa4800a78fcc7ce93339.png

当 时,也即 为联合分布且 为边缘分布的乘积时,

2.3 JS散度Jensen-Shannon Divergence

正由于 KL 散度的非对称性使之不能作为距离,JS 散度作为 KL 散度的一种变体,解决了非对称问题,定义为:

4f2b04c2f9ae202edbe673560f9a0d12.png

adb3aba84bddff05565f2c2eb9a338b0.png

其它

Wasserstein距离

差异/距离度量除了上面介绍的与信息熵有关的 notions 外,目前很火的是 p-Wasserstein 距离(由最优传输 Optimal Transport 得来),p-Wasserstein 距离的显著优点在于它可以比较两个完全没有 intersection 的分布,这是 KL 散度等不具备的。p-Wasserstein 距离已经在 WGAN 等工作中被广泛使用。

⌈最优传输OT和p-Wasserstein距离的简介⌋见笔者文章:

https://zhuanlan.zhihu.com/p/551134022

⌈最优传输的Python应用实现⌋见笔者文章:

https://zhuanlan.zhihu.com/p/573158960

outside_default.png

参考文献

outside_default.png

[1] KL散度衡量的是两个概率分布的距离吗?

https://www.zhihu.com/question/345907033/answer/2200649796

[2] 工具人66号:进阶详解KL散度

https://zhuanlan.zhihu.com/p/372835186

[3] KevinCK:交叉熵、相对熵(KL散度)、JS散度和Wasserstein距离(推土机距离)

https://zhuanlan.zhihu.com/p/74075915

更多阅读

d0b354b4ecacb66c69a7e54526ae6a30.png

ea58e9e3e0dc56d6dda6d4c691beb519.png

e50263f9d2af692ccf0aa1c850268e31.png

a0e39cc308ef6487a8d93945c9e92ccb.gif

#投 稿 通 道#

 让你的文字被更多人看到 

如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。

总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 

PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。

📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道:

• 投稿邮箱:hr@paperweekly.site 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿

9cf7f4bcabcca4b1c55be1e85c0fe9af.png

△长按添加PaperWeekly小编

🔍

现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

·

·

06f557ff45baa24afb04d71abab83680.jpeg

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值