熵和信息

0. 序言

  在学习决策树的时候,决策树的分裂特征选择使用的启发函数,用到了熵这个概念。单纯的记忆公式只能知其然,而为了进一步探究决策树为什么用熵这个概念去评估选择分裂特征,则需要从熵的根本定义开始。

1. 熵(entropy)的定义

1.1 描述

  抽象而言,一个宏观态系统可能有多个具体的微观态,熵表征了宏观态具体处于哪个微观态的不确定性。
  具体而言,一个变量可能有多个具体的情况,熵表征了变量具体处于那种情况的不确定性。
  简言之表征了一种状态的不确定性
  举例而言,一个选择题有四个可能答案A,B,C,D,表征了正确答案是A,B,C,D哪个选项的不确定性。

1.2 定义

  熵的最初定义来源于热力学第二定律,热力学中的热熵是表示分子状态混乱程度的物理量。后来,香农提出了信息熵的概念,解决了信息量化度量的问题。
  熵,是相对观察者的,相对事件的,所以不具体到观察者,不具体到事件,就无法具体计算熵。

2. 信息的定义

2.1 描述

  信息与熵数量相等意义相反,这点必须要注意。我们现在生活中所提到的信息,是一种宽泛的信息概念,而真正的信息其本质就是消除不确定性
  抽象而言,信息确定宏观态具体是哪个微观态所需要的物理量。
  具体而言,信息是确定一个变量具体是那种情况所需要的物理量。
  简言之信息表征了消除不确定性物理量。
  举例而言,一个选择题有四个可能答案A,B,C,D,信息表征了确定正确答案是哪个选项所需要的物理量。
  所以,信息是相对的
  对于小明而言,如果他会这道题,则正确答案具体是哪个选项的不确定性(熵)为0bit。则你告诉他正确答案是C,给予他的信息也是0bit。
  对于小红而言,如果他对这道题没有任何先验知识,则正确答案具体是哪个选项的不确定性(熵)为2bit。则你告诉他正确答案是C,给予他的信息也是2bit。

2.2 定义

  信息是物理量,那么就如同质量,距离一样实实在在的存在。它的定义也必然参考了质量和距离的定义。

  1. 首先有一个参照物,作为标定。
      对于质量而言,1kg是多少,是有一个国际统一的标定物的(就如同秦始皇统一度量衡一样)。
      所以信息的参照,我们一般以一枚硬币有正反两种情况作为标定,定义为1bit。(当然还是nat和hart,区别在于log底数不同)

  2. 然后所有其他测量物,对标参照物。
      对于质量而言,根据待测物体的质量相当于多少个参照物体,来得到待测物体质量。相当于乘除法关系。
      但是对于信息而言,1枚硬币2种情况,2枚硬币4种情况,3枚硬币8中情况,这种不确定性不是乘除法关系,而是指数关系。所以信息定义为以2为底log对数。
    l o g 2 m log_2^m log2m
      其中, m m m为所有可能情况。1枚硬币 m = 2 m=2 m=2,2枚硬币 m = 4 m=4 m=4

  3. 对于大多时候,各个情况并非等概率存在,因此通用的定义是求期望。
    ∑ p i ∗ l o g 2 1 / p i \sum pi*log_2^{1/pi} pilog21/pi
      其中, p i pi pi表示第i种情况的概率,而概率的倒数可以理解为情况数。

3. 概率的定义

  概率表征了宏观态是某个微观态的确定性。
  简言之概率表征确定性
  举例而言,一个选择题有四个可能答案A,B,C,D,概率表征了正确答案是A,B,C,D哪个选项的确定性都是25%。

4. 算一算

例题:一个选择题有四个可能答案A,B,C,D。

4.1 对人计算

  1. 小红,是一个白痴,啥都不会,连题都读不懂,求正确答案是哪个对小红的熵。
      由于小红,啥都不知道,所以四个答案对他而言是等概率的。因此直接利用 l o g 2 m log_2^m log2m,其中m=4,则 l o g 2 4 log_2^4 log24=2bit。

  2. 小明,知道A肯定不对,B有20%概率,C,D不确定,求正确答案是哪个对他的熵。
      小明排除A,有三种情况,则
    ∑ p i ∗ l o g 2 1 / p i = 1 / 5 ∗ l o g 2 5 + 2 / 5 ∗ l o g 2 5 / 2 + 2 / 5 ∗ l o g 2 5 / 2 = 1.522 b i t \sum pi*log_2^{1/pi} = 1/5 * log_2^5 + 2/5 *log_2^{5/2} + 2/5 *log_2^{5/2} = 1.522bit pilog21/pi=1/5log25+2/5log25/2+2/5log25/2=1.522bit

4.2 对事计算

  我想知道答案是A,B或者C,D的熵,则此时就两种情况,因此 l o g 2 m log_2^m log2m,其中m=2,则 l o g 2 2 log_2^2 log22=1bit。

5. 参考文献

https://www.zhihu.com/people/YJango/answers/by_votes
http://www.ruanyifeng.com/blog/2017/04/entropy.html

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值