信息增益

**

关于信息熵、条件熵、信息、信息增益的理解

**
在学习决策树划分数据集选择特征的时候,看到这样一句话“在划分数据集之前之后信息发生的变化称为信息增益,知道如何计算信息增益,我们就可以计算每个特征值划分数据集获得的信息增益,获得信息增益最高的特征就是最好的选择。”,大致意思就是选择特征和信息增益有关。那么信息增益是个什么东东呢?这就要引出另一个东西,熵和信息。
****信息熵定义为信息的期望值。****信息又是什么呢,香农说,信息是用来消除随机不确定性的东西。这个很容易理解哈,比如一个人能从他的衣着中得出一些信息,我们遇到一个穿白大褂的那么我们认为他可能是医生,也有可能是在生物实验室工作人员或者其他等等。但是如果我们是在医院见到这个穿白大褂的人,那么我们几乎可以确定他就是医生。本来你是不知道这个人是什么职业的,但是你根据“医院”和“白大褂”这两个信息,缩减了职业范围,消除了不确定性的东西,知道他应该是个医生。这就是你依据信息做出的判断。
那么如何度量信息的多少呢?人们常常说信息很多,或者信息较少,但却很难说清楚信息到底有多少。1948年,香农提出了“信息熵”的概念,才解决了对信息的量化度量问题。
一条信息的信息量大小和它的不确定性有直接的关系。我们需要搞清楚一件非常非常不确定的事,或者是我们一无所知的事,就需要了解大量的信息。相反,如果我们对某件事已经有了较多的了解,我们就不需要太多的信息就能把它搞清楚。比如,太阳从东方升起和太阳从西方升起。我们对太阳从东方升起这件事很了解,我们没有获取到任何信息量,但是我们对太阳从西方升起几乎不了解,这件事的信息量是非常大的。它代表着可能太阳有异常活动、物理规则发生改变等等,所以,从这个角度,我们可以认为,信息量的度量就等于不确定性的多少。**而信息熵 – 表示随机变量的不确定性。**所以我们可以用信息熵对信息多少进行度量。
先说一下信息计算方法,才能得到信息熵计算方法。
某个类(xi)的信息定义如下:
在这里插入图片描述
X=xi类的信息是,以2为底xi发生的概率的对数的负。这里的类也好理解,比如一个物品你进行分类最后得出这是个苹果类,或者是个橘子类等。
信息熵便是信息的期望值,可以记作:
在这里插入图片描述
条件熵又是什么呢? ,通俗来讲就是,知道X情况下,Y的信息量。条件熵表示在已知随机变量 X 的条件下,Y 的条件概率分布的熵对随机变量 X的数学期望。
用符号表示就是如下:

在这里插入图片描述
比如天气冷暖和我穿衣服多少是有联系的。假设X表示我穿衣服多少(假设只有2种情况,穿多或者穿少),Y表示天气冷暖,那么H(Y|X)表示的是在确定路人穿衣情况下天气冷暖的情况的不确定性的数学期望。看到路上行人穿衣服多少,你就能大概的判断天气状态,比你不知道路人穿衣情况下去判断天气的不确定性要少,这一点是肯定的。并不用知道我到底是穿的多还是穿的少,因为不管我穿得多还是穿的少,你对天气的判断是一定会更加准确。也就是X的值并不用确定,因为每种值都会被取到。
最后回溯到开始。信息增益就是:信息熵 - 条件熵
信息熵是代表随机变量的复杂度(不确定度),条件熵代表在某一个条件下,随机变量的复杂度(不确定度),信息增益是:信息熵-条件熵。换句话说,信息增益代表了在一个条件下,信息复杂度(不确定性)减少的程度。
通俗地讲,X(明天下雨)是一个随机变量,X的熵可以算出来, Y(明天阴天)也是随机变量,在阴天情况下下雨的信息熵我们如果也知道的话(此处需要知道其联合概率分布或是通过数据估计)即是条件熵。两者相减就是信息增益!原来明天下雨例如信息熵是2,条件熵是0.01(因为如果是阴天就下雨的概率很大,信息就少了),这样相减后为1.99,在获得阴天这个信息后,下雨信息不确定性减少了1.99!是很多的!所以信息增益大!也就是说,阴天这个信息对下雨来说是很重要的!所以在特征选择的时候常常用信息增益,如果IG(信息增益大)的话那么这个特征对于分类来说很关键~~ 决策树就是这样来找特征的。
本节完

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值