文字熵的简述

信息熵是什么意思?就是“每个符号的平均信息量”的意思。

首先说说什么叫信息量。

其实这个概念一点也不神秘,就是说我要表达一个信息,需要多少个符号的意思。比如我要赞扬YC的文章写得好,我可以像下面这样说:

           (1)  YC 好!

           (2)YC的文章好!

           (3)YC文章实在是太好了!

就我要表达的信息来说,(2)就够了,(1)则表达不清楚,(3)则表达过头了。因此我所要表达的信息,按照科学网常用的符号系统中的符号来表达,就需要7个符号。这“7个符号”,就是信息量。

但是,我们表达同样的信息,用不同符号集的符号,需要的符号个数并不相同,不如我们用英文表达(2):

              YC‘s articles are exellent.

我们可以数一下,这一共是27个符号(含空格)。

所以为了给“信息量”一个统一的计量标准,我们将采用统一的一个符号系统计算表达一个信息所需要符号个数。

由于计算机信息技术的发展,现在最常用的,我们是采用(0,1)作为符号集或者符号系统,而其一个符号的长度,我们称为“位”(bit)。(其实莫尔斯电码也是二进制符号系统。)

那么怎么计算一个符号系统的某个符号所携带的信息量呢?在采用bit为单位的情况下,我们采用以下公式:

                            I(ai)=log2P(ai)

这个公式是说,在一个符号系统中,若第i个符号(我们用 ai 表示)出现的概率为 ai ,则其信息量 I(ai) 如果用bit计量,则用以上公式计算。为什么这样计算呢?在一个符号系统中,出现频率越高的符号,其含有的信息量越低,反之则越高。我们可以想想一个极端情况,如果一个符号系统只有一个符号,出现来出现去,就是那个符号。因此这个符号含的信息量就是零,出现不出现对接收者都没啥差别。再想想一种情况,如果一个符号系统中的某个符号出现的概率接近于零,那么这个符号要么长久不出现,要么一出现就带来惊人的信息量,极限情况下是趋向于无穷大。比如,我们这一生,几乎不可能中大奖,但是如果哪天晚上你接到电话,原来是NB委员会通知你得了NB奖,这个消息的信息量是不是接近无穷大?

其实计算文字的信息量,由于很多情况,我们并不清楚使用一种语言,表达特定的信息,怎么样讲用字或者字符最少,所以 计算本身也是困难的。

最简单的办法,我们只能统计一个符号集中间出现某个符号的概率,然后针对特定的一个短语或者句子,来讨论相关的信息量。比如 “YC的文章好!”是在约有3000个字符常用中文字符集中选用的7个符号,假定每个字符出现的概率完全相等,则其大致估算的信息量为:

                             7log23000=711.55= 40(bits)

平均每个符号的平均信息量为11.55bits。

同样的办法,我们也可以计算 ‘YC‘s articles are exellent. ’的信息量,假定英文用的符号集含60个(含26个字母大小写,空格与常用标点。)符号,每个符号出现概率相同,则其信息量估算为:

                             27log260=275.91=159(bits)

符号的平均信息量为5.91bits。

细心的读者应该留意到,我这样算信息量和平均信息量是不对的,因为,不论中英文,我假定每个符号出现的概率相同明显不可能,比如中文中的“的”出现频率就相当高,而英文字母符号中的“空格”出现频率也非常大。对于中文而言,我的计算大致靠谱,因为中文字符多,所以就是有误差,算起来问题也不会特别大;但是英文字母少,算起来问题就大了。

   事实上,我们规定单个符号的信息熵,即平均信息量如下:

                 H(X)=XPailog2P(ai)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值