信息论基础--熵

熵是信息论的基础理论,掌握和学习它十分重要。这里介绍若干信息论中的相关概念,重点参考宗成庆老师的《统计自然语言处理》书籍和课件。也在这,强烈推荐下宗成庆老师的《统计自然语言处理》书籍和课件。


目录

联合熵(joint entropy)

条件熵(conditional entropy)

连锁规则---》log运算而来

熵率(entropy rate)

相对熵(KL距离)

交叉熵

 困惑度(perplexity)

互信息

双字耦合度

信道模型



又称为自信息(self-information),表示信 源 X 每发一个符号(不论发什么符号)所提供的平均信息量。越不确定的随机变量越需要大的信息量用以确定其值。

单位是bit,意思是:这么多的信息,需要多少bit的数据来存储?其中,每个bit位子上,可以存的值只能是0或者1。

例子1:

一次抛硬币,只能是正面和反面。问抛一次的信息熵(不确定性)是多少?

H(x) =-[p(0)log_{2}p(0) +p(1)log_{2}p(1)] =-[0.5log_{2}0.5 +0.5log_{2}0.5]=1

解释:0和1两种情况,只有log_{2}2 1bit 的信息熵。

例子2:

抛一枚骰子,一共6个面,在计算机中需要多少bit的空间存储结果(也就是投掷的结果有多大信息熵)?

H(x)=-[6*(1/6)*log_{2}(1/6)]=-log_{2}(1/6)=log_{2}6 bit

解释:6中可能情况,假设采用早期的计算机,只能0-1编码,至少需要log_{2}6  bit位长度 才能存的下。

 

算法复杂度中的log,可以理解成需要多少步去完成算法的执行。


  • 联合熵(joint entropy)

上述熵是描述单一变量的信息量。如果一个元素,实质上是由两个变量组合而成的,比如一个点(x,y)。那么怎么表示这对变量的信息量?

 

例子1:

一次抛两枚硬币,问抛一次的信息熵(不确定性)是多少?

因为需要考虑两枚硬币的情况,所以仍然以0表示反面,1表示正面。

那么有:

H(x) =-[p(0,0)log_{2}p(0,0) +p(0,1)log_{2}p(0,1)+p(1,1)log_{2}p(1,1)+p(1,0)log_{2}p(1,0)] =-[4*(1/4)*log_{2}(1/4)]=log_{2}4=2bit

解释:4种情况,需要2bit的大小来存储,因此信息熵是2bit。


 

  • 条件熵(conditional entropy)

进阶理解 :

假设给定的X已经确定,比如说X=a,那么 H(Y|X=a)=-\sum_{i} p(Y=y_{i}|X=a).

但是呢,X的取值可能也有很多种情况,并不一定是a,所以需要考虑X的概率分布,所以有

 


  • 连锁规则---》log运算而来

结合贝叶斯公式来理解上式。 


 

  • 熵率(entropy rate)

例子:

假设投掷2次骰子,分别为事件A和B。那么H(X_{ln})=H(A,B)=log_{2}(6*6)

而此时的长度是n=2

那么H_{rate}=0.5*H(X_{ln})


 

  • 相对熵(KL距离)

 

含义:衡量两个概率分布的差距,注意和下面的交叉熵相互区别。


  • 交叉熵

 困惑度(perplexity)

我们所说的语言模型的困惑度通常是指语言模型对于测试数据的困惑度。

 

互信息

双字耦合度

 

 

信道模型

 

 

 

  • 1
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值