信息论基础--熵

最新推荐文章于 2021-12-01 08:17:33 发布

05hBoolShow

最新推荐文章于 2021-12-01 08:17:33 发布

阅读量1.4k

点赞数 1

分类专栏： nlp 文章标签：信息论熵联合熵条件熵相对熵

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/LWHGMAN/article/details/101120175

版权

nlp 专栏收录该内容

5 篇文章 0 订阅

订阅专栏

熵是信息论的基础理论，掌握和学习它十分重要。这里介绍若干信息论中的相关概念，重点参考宗成庆老师的《统计自然语言处理》书籍和课件。也在这，强烈推荐下宗成庆老师的《统计自然语言处理》书籍和课件。

目录

联合熵(joint entropy)

条件熵(conditional entropy)

连锁规则---》log运算而来

熵率(entropy rate)

相对熵（KL距离）

困惑度(perplexity)

双字耦合度

熵

又称为自信息(self-information)，表示信源 X 每发一个符号(不论发什么符号)所提供的平均信息量。越不确定的随机变量越需要大的信息量用以确定其值。

单位是bit，意思是：这么多的信息，需要多少bit的数据来存储？其中，每个bit位子上，可以存的值只能是0或者1。

例子1：

一次抛硬币，只能是正面和反面。问抛一次的信息熵（不确定性）是多少？

$H(x) =-[p(0)log_{2}p(0) +p(1)log_{2}p(1)] =-[0.5log_{2}0.5 +0.5log_{2}0.5]=1$

解释：0和1两种情况，只有 $log_{2}2$ 1bit 的信息熵。

例子2：

抛一枚骰子，一共6个面，在计算机中需要多少bit的空间存储结果（也就是投掷的结果有多大信息熵）？

$H(x)=-[6*(1/6)*log_{2}(1/6)]=-log_{2}(1/6)=log_{2}6$ bit

解释：6中可能情况，假设采用早期的计算机，只能0-1编码，至少需要 $log_{2}6$ bit位长度才能存的下。

算法复杂度中的log，可以理解成需要多少步去完成算法的执行。

联合熵(joint entropy)

上述熵是描述单一变量的信息量。如果一个元素，实质上是由两个变量组合而成的，比如一个点（x，y）。那么怎么表示这对变量的信息量？

例子1：

一次抛两枚硬币，问抛一次的信息熵（不确定性）是多少？

因为需要考虑两枚硬币的情况，所以仍然以0表示反面，1表示正面。

那么有：

$H(x) =-[p(0,0)log_{2}p(0,0) +p(0,1)log_{2}p(0,1)+p(1,1)log_{2}p(1,1)+p(1,0)log_{2}p(1,0)] =-[4*(1/4)*log_{2}(1/4)]=log_{2}4=2bit$

解释：4种情况，需要2bit的大小来存储，因此信息熵是2bit。

条件熵(conditional entropy)

进阶理解：

假设给定的X已经确定，比如说X=a,那么 H(Y|X=a)= $-\sum_{i} p(Y=y_{i}|X=a)$ .

但是呢，X的取值可能也有很多种情况，并不一定是a，所以需要考虑X的概率分布，所以有。

连锁规则---》log运算而来

结合贝叶斯公式来理解上式。

熵率(entropy rate)

例子：

假设投掷2次骰子，分别为事件A和B。那么 $H(X_{ln})=H(A,B)=log_{2}(6*6)$

而此时的长度是n=2

那么 $H_{rate}=0.5*H(X_{ln})$

相对熵（KL距离）

含义：衡量两个概率分布的差距，注意和下面的交叉熵相互区别。

交叉熵

困惑度(perplexity)

我们所说的语言模型的困惑度通常是指语言模型对于测试数据的困惑度。

互信息

双字耦合度

信道模型

关注

1
点赞
踩
9

收藏

觉得还不错? 一键收藏
0
评论
信息论基础--熵

熵是信息论的基础理论，掌握和学习它十分重要。这里介绍若干信息论中的相关概念，重点参考宗成庆老师的《统计自然语言处理》书籍和课件。也在这，强烈推荐下宗成庆老师的《统计自然语言处理》书籍和课件。目录熵联合熵(joint entropy)条件熵(conditional entropy)连锁规则---》log运算而来熵率(entropy rate)相对熵（KL距离）交叉熵...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。