谈谈信息熵--信息的度量

信息熵是香农在1948年提出的概念,用于度量信息的不确定性。熵在化学和热力学中表示能量退化,而在信息论中则表示信息的不确定性程度。通过熵的计算,可以量化随机变量的信息含量,且在有联合概率分布的情况下,可以通过联合熵和条件熵来进一步描述信息之间的关系。在数据传输、编码和决策树等领域,熵和互信息都扮演着重要角色。
摘要由CSDN通过智能技术生成

      

    信息是一个抽象的概念,很难给信息下一个定义。我们常常说信息的多少,这个多少却很难度量。比如我们说一部中文字典到底有多少信息量,一本50多万字的《史记》又有多少信息量。究竟信息背后有没有理论基础呢?在香农信息论诞生以前,我们没有准确的数学方法来描述信息。直到1948年,香农在他著名的论文“通信的数学原理”中提出了“信息熵”的概念,信息的度量问题才得以解决。香农的信息论如今在信息学、通信、计算机理论等方面中发挥了巨大的作用。

     

什么是熵呢?熵起源于化学及热力学,是一种能量退化的指标(详情参考wiki)。在信息论中,熵用来表示信息的不确定性的程度。什么是不确定性程度呢?简单地说,不确定性越多,我们就需要越多的信息来了解,信息越多,不确定性也就越大,比如我们需要搞清楚一件非常不确定的事,就需要大量的信息。举个例子,我们在和同学吃饭时偶尔会玩的猜数字游戏,一个同学A确定好(0,100)的数字,然后其他同学轮流猜。B同学很可能会猜50,然后确定A同学会告诉那个数字是否为50,如果不是,是在(0,50)还是(51,100)的数字,然后C同学也很可能会再折半猜数字。这个折半猜有什么好处呢?如果大家学过计算机程序设计的二分查找算法的话,就会知道这样折半查找平均情况下是最快的,查找平均复杂度为O(log n)(底数为2,原因是我们每查找一次,就可以减少一半的搜索范围),意思是说我们最多用log n这样的查找次数就能查找到我们需要的数字了,但是前提是给我们的数据是有序的。所以猜数字游戏最多猜7次就能成功了!我们就说A同学的数字的信息量为7,用计算机二进制的编码来解释的话,用7个二进制位就能表示0-100内的所有数字啦。

  假设考虑一个离散

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值