从入门到弃坑之科普信息熵

相信通过这个回答的介绍,能够使一个对信息熵毫无了解的人,基本上明白信息熵是什么,以及有什么用。
熵的概念首先在热力学中引入,用于表述热力学第二定律。波尔兹曼研究得到,热力学熵与微观状态数目的对数之间存在联系,并给出了公式:
S=k\ln W
这个公式也作为他最骄傲的成绩,刻在了他的墓碑上。信息熵的定义与上述这个热力学的熵,虽然不是一个东西,但是有一定的联系。熵在信息论中代表随机变量不确定度的度量。一个离散型随机变量X的熵 H(X) 定义为:
这里写图片描述
这个定义的特点是,有明确定义的科学名词且与内容无关,而且不随信息的具体表达式的变化而变化。是独立于形式,反映了信息表达式中统计方面的性质。是统计学上的抽象概念。
所以这个定义如题主提到的可能有点抽象和晦涩,不易理解。那么下面让我们从直觉出发,以生活中的一些例子来阐述信息熵是什么,以及有什么用处。
直觉上,信息量等于传输该信息所用的代价,这个也是通信中考虑最多的问题。比如说:赌马比赛里,有4匹马 ABCD ,获胜概率分别为1/2,1/4,1/8,1/8 。
接下来,让我们将哪一匹马获胜视为一个随机变量 X∈{A,B,C,D} 。假定我们需要用尽可能少的二元问题来确定随机变量X 的取值。
例如:问题1:A获胜了吗?问题2:B获胜了吗?问题3:C获胜了吗?最后我们可以通过最多3个二元问题,来确定 X 的取值,即哪一匹马赢了比赛。
如果 X=A ,那么需要问1次(问题1:是不是A?),概率为 1/2 ;
如果X=B ,那么需要问2次(问题1:是不是A?问题2:是不是B?),概率为 1/4 ;
如果X=C ,那么需要问3次(问题1,问题2,问题3),概率为1/8 ;如果X=D ,那么同样需要问3次(问题1,问题2,问题3),概率为 1/8 ;
那么很容易计算,在这种问法下,为确定X 取值的二元问题数量为:
这里写图片描述
那么我们回到信息熵的定义,会发现通过之前的信息熵公式,神奇地得到了:
这里写图片描述
在二进制计算机中,一个比特为0或1,其实就代表了一个二元问题的回答。也就是说,在计算机中,我们给哪一匹马夺冠这个事件进行编码,所需要的平均码长为1.75个比特。
平均码长的定义为: 这里写图片描述
很显然,为了尽可能减少码长,我们要给发生概率p(x) 较大的事件,分配较短的码长l(x) 。这个问题深入讨论,可以得出霍夫曼编码的概念。
那么 {A,B,C,D} 四个实践,可以分别由 {0,10,110,111}表示,那么很显然,我们要把最短的码O分配给发生概率最高的事件A ,以此类推。而且得到的平均码长为1.75比特。如果我们硬要反其道而行之,给事件A分配最长的码111 ,那么平均码长就会变成2.625比特。
霍夫曼编码就是利用了这种大概率事件分配短码的思想,而且可以证明这种编码方式是最优的。我们可以证明上述现象:
为了获得信息熵为 H(X) 的随机变量 X 的一个样本,平均需要抛掷均匀硬币(或二元问题)H(X) 次(参考猜赛马问题的案例)
信息熵是数据压缩的一个临界值(参考码长部分的案例)。
这可能是信息熵在实际工程中,信息熵最最重要且常见的一个用处。
这里写图片描述
这里写图片描述
作者:D.Han
链接:https://www.zhihu.com/question/22178202/answer/223017546

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值