决策树中信息增益最大找的是样本之间差异最大的特征

  决策树的每一层都需要根据最大信息增益来进行分类特征的选取。实际上,信息增益最大找的是样本之间差异最大的特征

1 最大信息增益的定义

  信息增益是指,分类前根据原始类别计算的熵值ResEntropy和分类后计算的熵值NewEntropy两者的差值DifferenceEntropy。因此,信息增益最大是指DifferenceEntropy最大。

2 熵值越小,样本类别越一致

  既然原始的熵值是常量(当样本固定后),那么最大信息熵值实际上也就说是分类后的熵值要越小越好。我们知道,熵是用来度量信息容量的,即信息量越大,信息越多样,其熵值越大。相反,如果信息很一致,其熵值是很小的。
  将其推广到分类中,分类后的两个类别,其各自的样本结果越复杂,则分类后的熵值越大。其自的样本结果越一致,其熵值越小。比如,区分班上爱学习和不爱学习的20个学生,如果用考试成绩特诊来分类,成绩特征值为高的一类同学9个人都是爱学习的,只有1个是不爱学习的,即成绩特征值高得一类样本结果的一致性很好。但是,如果使用身高来分类,身高属性值为高的一类同学中,可能5个是爱学习的,5个是不爱学习的,身高高的一类中样本结果的一致性很差。
  也就是说,在爱学习和不爱学习的分类例子中,成绩特征比身高特征显著,其分类结果更为一致。而最大增益原则选取的正是使结果一致的特征。
  

3 最大信息增益的特征即为最显著特征

  
  也就是说,最大信息熵的所选的特征是分类后熵值最小的特征。分类后熵值最小的特征恰恰是分类结果一致的特征,而分类结果一致的特征必须是两类样本差异最大的特征。

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值