信息熵和信息增益

熵可以理解为信息量,而信息量又可以理解为随机性。因为一个系统的随机性越大,我们去了解这个系统的难度也就越大,它包含的信息量应该也越大。通俗的来说,就是若不确定性越大,则信息量越大,熵越大;若不确定性越小,则信息量越小,熵越小。举例来说,掷一个硬币,和掷一个色子,这两个系统,谁包含的信息量大呢?直观理解当然是后者。深入考虑一下这是为什么呢?因为掷一个色子能够产生6种状态,而一枚硬币只有两种状态。
那么怎样衡量一个系统信息量的大小呢?这就是熵的概念了,计算公式如下
这里写图片描述
从这个公式看一下信息量与熵(就是这个公式),是不是对应起来的:
1 考虑一个极端的情况,系统只有一种状态,此时系统非常稳定。再来看熵,等于0.这是合理的

2 如果一个系统包含的状态多于1种。举例来说,一个指针转盘,包含三种状态,10元奖,100元奖,和500W大奖。在一切正常的情况下,三个状态出现的概率相同,我们预测指针最后的指向是最难的,这个系统的信息量也就是最大的。而如果在10元这里放一个干扰器或者吸铁石之类的干扰装置,那么指针落在10元区的概率大大提升,比如是0.9,剩余的两个区域等概率出现,都是0.05,此时我们再去预测指针的指向就容易多了,因为指针基本会落在10元区。因此这两个系统,前一个应该包含更多的信息量。
再看熵的公式
这里写图片描述

也是符合情况的。

3 数学上可以证明,当p1=p2=..pn=1/n时,系统的信息量最大=logn

理解了熵,就能理解信息增益。信息增益是相对于特征来说的,是衡量一个特征对于一个系统的重要性的指标。信息增益的公式如下

他表示,原有的信息量减去去掉该特征之后的信息量就等于该特征的信息量,也表示信息不确定性减少的程度。信息增益越大表示此特征越重要。

举例计算:

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值