如何理解信息量、信息熵、信息增益

如何理解信息熵

1. 信息的度量

首先需要明确的是,这里的信息和我们每天看新闻,看报纸获取的信息概念不完全相同,这里定义的信息是需要一个能够完全量化的概念,其中量化信息大小的量成为信息量。按照香农的观点,信息是用来消除随机不确定性的东西,其中,能够消除的“不确定性成分”越大,信息量肯定也越大。这时候,信息的“不确定性成分”人们自然会想到概率,因为概率越小,不确定性就越大,但是显然信息量不能与事件发生的概率划等号,因为前面已经提到,信息能够消除不确定性的成分越大,信息量越大。另外根据定义,信息不可能增加不确定性的东西,因此信息量总是非负数。此外,两个独立事件能够提供的信息应该是能够叠加的。按照香农给出的定义,信息量的定义为
(1.1) h ( x ) = − log ⁡ p ( x ) h(x) = - \log p(x) \tag {1.1} h(x)=logp(x)(1.1)
就是说信息x的信息量是随机事件X中事件x发生的概率p(x)的负对数,比如说彩票站开奖,中奖概率是1/10000,对于一个手握彩票号码是1234只关注自己是否中奖的甲来说,中奖号码是1234和非1234能够提供的信息量就是不同的,因为中奖这件发生的概率仅为1/10000,我们说中奖号码是1234提供的信息量是-log(1/10000),而对于中奖号码非1234的话,只能未中奖事件的概率9999/10000,我们说中奖号码非1234提供的信息量是-log(9999/10000),其中对于信息量运算时的底数没有严格的规定,我一般习惯使用自然对数,这对于理解信息这个概念时没有影响的。

2. 信息熵

前面提到的信息量,指的是在随机事件中,概率为p(x)的事件x发生的概率的相反数,这是需要重点理解的是,就是我们认为事件x已经发生了,那么它提供的信息就可以表示为在第一节提供的公式,这里一定要注意和概率的概念做区分。那么信息熵是怎么回事呢?信息熵借用热力学中熵的定义,将随机事件的的信息量的均值成为信息熵。信息熵的定义如下
(2.1) H ( X ) = E ( h ( x ) ) H(X) = E(h(x)) \tag {2.1} H(X)=E(h(x))(2.1)
上面X表示随机事件,x表示随机事件的取值,比如说随机事件是从单选题中A、B、C、D四个选项中选出一个正确选项,那么明显X的取值集合为{A, B, C, D},如果这四个选项正确的可能性相同,那么各自发生的概率为0.25,事件发生的信息量为 − log ⁡ ( 0.25 ) -\log(0.25) log(0.25),那么这个事件的信息熵就可以通过下面这个式子计算
H ( x ) = E ( p ( x ) ) H(x) = E(p(x)) H(x)=E(p(x))
= − ∑ x

  • 2
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值