信息量,信息熵,信息增益概念的理解和计算

信息量,信息熵,信息增益概念的理解和计算

你好!让我们聊一聊 信息量,信息熵,信息增益的概念和公式,这对以后学习决策树会有很大的帮助。

信息量

某个具体事件发生的产生的信息量往往和他发生的概率成反比,即发生的概率越小,产生的信息量越大。

信息熵

信息熵是随机变量所有取值的均值之和,信息熵是正数,信息熵越小,表示事情的不确定性越小,熵的计算公式如下:
Alt

信息增益

信息增益=信息熵-条件熵
信息熵指在一个待分类集合熵值
条件熵指在一个按照某个特征分类后,分别计算每个类别的熵值,按照特征分类比例求出的均值
信息增益代表在某个特征的条件下,事件发生的不确定性减少的程度,那下面我们就介绍条件熵和他的计算公式。
信息增益计算公式:
Alt

条件熵

条件熵是在某个特征条件下按照概率某个条件分类之后的分别计算熵,在计算出的均值
Alt
`

  • 2
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
信息增益信息增益比和熵都是决策树算法中常用的指标,用于选择最优的划分属性。 信息增益是在给定数据集D的条件下,从所有可能的划分属性中选择一个使得划分后的子集纯度最高的属性。纯度的计算是使用熵的概念,即信息熵信息增益越高,表示使用该属性进行划分后,所得到的子集的纯度越高,对于决策树的构建来说,信息增益越高的属性越优先选择。 信息增益比是在信息增益的基础上,对属性的取值数目进行了惩罚。即信息增益比=信息增益/属性的固有值。固有值是一个属性所包含的信息量,与属性的取值数目有关。因此,信息增益比考虑了属性的取值数目对信息增益的影响,可以避免对取值数目较多的属性的过度偏好。 熵是用于衡量数据集的不确定性,熵越高表示数据集的不确定性越大。在决策树中,熵用于衡量划分子集的纯度,即使用该属性进行划分后,所得到的子集的不确定性。信息增益信息增益比的计算都基于熵的概念,因此熵在决策树算法中具有重要作用。 综上所述,信息增益信息增益比和熵都是决策树算法中常用的指标,用于选择最优的划分属性。信息增益信息增益比都考虑了属性对子集纯度的影响,而信息增益比还考虑了属性取值数目的影响。熵用于衡量数据集的不确定性,是信息增益信息增益比的计算基础。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值