熵是信息论的基础理论,掌握和学习它十分重要。这里介绍若干信息论中的相关概念,重点参考宗成庆老师的《统计自然语言处理》书籍和课件。也在这,强烈推荐下宗成庆老师的《统计自然语言处理》书籍和课件。
目录
-
熵
又称为自信息(self-information),表示信 源 X 每发一个符号(不论发什么符号)所提供的平均信息量。越不确定的随机变量越需要大的信息量用以确定其值。
单位是bit,意思是:这么多的信息,需要多少bit的数据来存储?其中,每个bit位子上,可以存的值只能是0或者1。
例子1:
一次抛硬币,只能是正面和反面。问抛一次的信息熵(不确定性)是多少?
解释:0和1两种情况,只有 1bit 的信息熵。
例子2:
抛一枚骰子,一共6个面,在计算机中需要多少bit的空间存储结果(也就是投掷的结果有多大信息熵)?
bit
解释:6中可能情况,假设采用早期的计算机,只能0-1编码,至少需要 bit位长度 才能存的下。
算法复杂度中的log,可以理解成需要多少步去完成算法的执行。
-
联合熵(joint entropy)
上述熵是描述单一变量的信息量。如果一个元素,实质上是由两个变量组合而成的,比如一个点(x,y)。那么怎么表示这对变量的信息量?
例子1:
一次抛两枚硬币,问抛一次的信息熵(不确定性)是多少?
因为需要考虑两枚硬币的情况,所以仍然以0表示反面,1表示正面。
那么有:
解释:4种情况,需要2bit的大小来存储,因此信息熵是2bit。
-
条件熵(conditional entropy)
进阶理解 :
假设给定的X已经确定,比如说X=a,那么 H(Y|X=a)=.
但是呢,X的取值可能也有很多种情况,并不一定是a,所以需要考虑X的概率分布,所以有。
-
连锁规则---》log运算而来
结合贝叶斯公式来理解上式。
-
熵率(entropy rate)
例子:
假设投掷2次骰子,分别为事件A和B。那么
而此时的长度是n=2
那么
-
相对熵(KL距离)
含义:衡量两个概率分布的差距,注意和下面的交叉熵相互区别。
-
交叉熵
困惑度(perplexity)
我们所说的语言模型的困惑度通常是指语言模型对于测试数据的困惑度。
互信息
双字耦合度
信道模型