4.5为什么使用信息增益比来选择特征?

这篇文章来源于本人的知乎回答

作者:陈彪

链接:https://www.zhihu.com/question/22928442/answer/117189907

来源:知乎

著作权归作者所有,转载请联系作者获得授权。


最近正好在学决策树,信息增益和信息增益率确实是初学阶段很纠结的问题。要解决题主的疑惑,必须先分析Info-Gain(信息增益)和Gain-ratio(信息增益率)的关系与差异。
从熵(Entropy)开始说起,熵最初是一个物理学概念,后来在数学中用来描述“一个系统的混乱程度”,因此一个系统的信息熵越高就越无序,信息熵越低就越有序, 信息熵越高,使其有序所要消耗的信息量就越大。

我们的目的就是将系统变得有序并找出 确定的信息,假设变量 X=\left\{ x_{1},x_{2}...x_{i}...x_{n}\right\} ,其中每个元素对应的概率(比例)为 P=\left\{ p_{1},p_{2}...p_{i}...p_{n}\right\} ,则对应熵的计算公式如下:
E(X)=-\sum_{i=1}^{n}{p_{i}log_{2}(p_{i} )  }
而信息增益(Info-Gain)指的就是熵的减少量:
  • 1
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值