信息量、信息熵、信息增益的理解

一、信息量

1. 一些概念的理解

首先我们需要将概率、不确定性和信息量这三个概念给串起来。

①一个 事件发生的不确定性与该事件发生的概率有关系。当一个事件发生的概率越高,事件越有可能发生,事件发生的不确定性就越小,反之,概率越低,事件发生的困难程度就越高,事件发生的不确定性也就越高。(概率为1的事件发生的不确定性是0,概率为0的事件发生的不确定性则趋于无穷)
②当信源(产生消息的来源)中某一消息(事件)发生的不确定性越高,一旦它发生,并且被收信者接受,消除的不确定性也就越大,获得的信息也就越多。如果收信者接受到被干扰的消息,对一个消息(事件)发生的不确定性几乎没有消除,则收信者接受到的信息也就微乎其微。因此,获得信息量的大小与不确定性消除的大小有关,我们直观地将信息量定义为
    接受到了某消息(事件发生)所获得的信息量
    =不确定性减少量
    =(收到此消息前关于某事件发生的不确定性)-(收到此消息后关于某事件发生的不确定性)

ps:由于我们是要用概率空间来描述信源,用随机变量来描述信源输出的消息,因此这需要信源可能发出的各种消息(事件)的概率先验可知

举个例子:
2020年7月25日太阳从东边升起这个事件(必然事件),这件事发生前你知道了这件事情必然会发生(不确定性是0),发生后(不确定性也是0),不确定性减少量是0,因此我们所接受到的信息量是0。

上面几段话的总结:一个事件发生的概率越小,不确定性越大,(因为事件发生了,并且被接收了,事件发生所消除的不确定性就越大了),事件发生所带来的信息量也就越大。(可以看出来信息量与概率成负相关了)

2. 用概率表示信息量

由上面已知事件发生概率和信息量二者存在联系。因此,我们想要寻找一个函数I(x),来表示信息的多少且是关于概率分布的函数。
I(x)需要满足以下几个性质:
①I(x) 是先验概率 p(x) 的单调递减函数,即当p(x1) < p(x2)时
     I(x1) > I(x2)

I(x) >= 0,因为h(x)表示的是得到的信息量的多少,应该是个非负数。
I(x,y) = I(x) + I(y)。假设有两个不相关的事件 x 和 y,那么这两个事件同时发生时获得的信息量应该等于观察到的事件各自发生时获得的信息之和。又因为 x,y 是两个不相关的事件,那么满足 p(x,y) = p(x)*p(y)。由这点可以知道I(x)与p(x)的对数有关系。
基于要满足上述性质,我们就可以得到
在这里插入图片描述

I(x)可以代表两种含义(也就是1部分总结的那句话)
①事件x发生之前,x事件发生的不确定性的大小
②事件x发生后,x事件含有(或所带来)的信息量


二、信息熵

1. 信息熵的计算方法

前面所定义的信息量是针对信源发出的某一个消息所产生的信息量,如果要衡量整个信源总体的信息量,应该使用整个概率分布对应的信息量的平均值,也就是信息量的期望,这也就是信息熵的定义。
因此,随机变量X的信息熵计算方法为:
在这里插入图片描述

注意:
①定义0log0=0
②熵越大,随机变量的不确定性就越大(因为之前说了,一个事件的发生越是不确定,那么它发生后所带来的信息量就越大,要是一个随机变量的平均信息量很大,那么也可以代表这个变量的不确定性很大)。

2. 信息熵的最大值、最小值

信息熵的最大值

三、信息增益(Information Gain)

1. 定义

定义:用某特征划分数据集前后的熵的差值
即信息增益=划分前的信息熵-划分后的信息熵

因为熵可以衡量一个样本集合的不确定性,熵越大,样本不确定性越大,纯度就越低(在决策树中如果分支节点包含的样本尽可能属于同一类别,我们就说纯度越来越高))。故可使用划分前后的样本集合的熵的差值来衡量使用该特征对样本集合的分类效果。
差值(信息增益)越大时,表示使用该特征划分数据集时纯度上升越快,使用该特征划分之后的分支结点就越有可能属于同一类别。而我们在构建决策树时也希望能更快速到达纯度更高的集合,因此可以根据信息增益来划分属性,ID3决策树即是用这种方法实现。

举个例子理解一下信息增益:

X(明天下雨)是一个随机变量,X的熵可以算出来, Y(明天阴天)也是随机变量,
在阴天情况下下雨的信息熵我们如果也知道的话(此处需要知道其联合概率分布或是通过数据估计)即是条件熵。
X的熵减去Y条件下X的熵,就是信息增益。
具体解释:原本明天下雨的信息熵是2,条件熵是0.01(因为如果知道明天是阴天,那么下雨的概率很大,信息量少),这样相减后为1.99。
在获得阴天这个信息后,下雨信息不确定性减少了1.99,也就是基本上可以通过阴天这个信息来确定是否下雨,所以信息增益大。也就是说,阴天这个信息对明天下午这一推断来说非常重要。

2. 信息增益的计算

在这里插入图片描述



后记

上述内容若有错误,望指正
参考资料:

1.《信息论基础》 赵蓉,叶茵编著
2.https://www.zhihu.com/question/22104055/answer/67014456

  • 11
    点赞
  • 35
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值