熵（Entropy） & 条件熵（Conditional Entropy） & 相对熵（Relative Entropy）- 学习笔记

最新推荐文章于 2023-05-14 20:00:54 发布

Foneone

最新推荐文章于 2023-05-14 20:00:54 发布

阅读量3.6k

点赞数

分类专栏：机器学习理论学习文章标签：熵条件熵相对熵

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/foneone/article/details/102885476

版权

机器学习理论学习专栏收录该内容

16 篇文章 19 订阅

订阅专栏

信息熵（Entropy）：解决信息的度量问题

一条信息的信息量与其不确定性有直接的关系，如果对一件事情了解的很多，那么信息少一些，也能知晓事情本身；反之，如果对事情没有一点了解，那么则需要大量信息来对事情进行知晓。因此，信息量就等于不确定性的多少。

香农利用“比特（Bit）”来度量信息量，一个bit是一位二进制数，1字节=8bit。信息量的比特数与所有可能情况的对数函数log有关。

信息熵的定义如下：

$H(X)=-\sum_ {x\in X}{P(x)log_2^{P(x)}}$

由于熵的单位是二进制位（bit），所以是以log2为底，以下都是以log2为底。约定0log0=0

变量的不确定越大，熵也就越大，信息量也就越大。在热力学中，熵变是指体系混乱程度的变化，熵是衡量系统无序的度量。因此在信息论中利用"熵"这个词来表示。

我们知道的信息越多，随机事件的不确定性越小，不仅仅是直接相关信息(X)与事件有直接关系，一些相关信息(Y)也能够帮助我们去了解事件，增加确定性。因此，引入了“条件熵”（Conditional Entropy）。

定义在Y的条件下的条件熵为：

$H(X|Y)=-\sum_{x\in X,y\inY}{P(x|y)log_{P(x|y)}}$

证明：H(X) >= H(X|Y) ----->>>>熵越大不确定性越大，加入Y后不确定性减小。当Y信息是与X毫无关系的信息时，等号成立。（后补）

在上面提到了，Y是与X相关的信息，才会对X的熵产生影响。那么如何衡量，两者的相关性大小？

香农提出利用“互信息（Mutual Information）”来度量X与Y相关性的大小：

互信息定义如下：

$I(X,Y)=\sum_{x \in X y \in Y}{P(x,y) log \frac {P(x,y)}{P(x)P(y)}}$

可以证明： I(X,Y)=H(X)-H(X|Y)

也就是说两个事件相关性的度量，就是在了解Y的情况下，对于消除X不确定性所提供的信息量。

信息量被广泛用于度量一些语言现象的相关性。比如机器翻译领域需要解决单词的二义性问题：Bush（布什or灌木）。在这个里面，可以利用互信息解决了这个问题。找出与布什互信息较大的词语，与灌木互信息较大的词语。然后等 Bush出现后，查看其上下文中哪类次出现频率高，那么基本可以断定这里的Bush为哪个含义。

相对熵（Relative Entropy），也被称为Kullback-Leibler散度，是用来衡量两个取值为正数的函数的相关性。

定义如下：

关于相对熵的三条结论：

（1）对于两个完全相同的函数，他们的相对熵等于0，KL(P||Q)>=0。

（2）相对熵越大，两个函数差异越大，反则亦然

（3）对于概率分布或者概率密度函数，如果取值均大于0，相对熵可以度量两个随机分布的差异性。

相对熵是不对称的，即：

$KL(f(x)||g(x)) \neq KL(g(x)||f(x))$

为了解决这个问题，提出了一种新的相对熵的计算方法如下：

$JS(f(x)||g(x))=\frac{1}{2}[KL(f(x)||g(x))+KL(g(x)||f(x))]$

相对熵有很多应用，衡量连个常用词在不同文本的概率分布中，是否为同义词。贾里尼克从条件熵和相对熵的角度出发，定义了一个新的语言模型复杂度，用来衡量语言模型的好坏。

参考文献：

[1]吴军-数学之美（第二版）第六章

关注

0
点赞
踩
7

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

Foneone 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。