C4.5决策树学习(基于集体智慧编程代码)

我在上一篇实验报告中有总结了ID3,C4.5,CART各决策树的不同,其中,有关于ID3和C4.5的不同,见文章.

上篇文章可能并没有侧重于这两种的不同,于是我仔细研究了一下,并采用《集体智慧编程》一书中的有信息熵和决策树的代码,见github地址,自行进行信息增益率的计算.

我的理解,看上文图中的公式,就能看出,SI(D,A)分裂信息值(以下简称SI)简直跟熵的计算方式一模一样,就是看属性的纯度,只含有少量的取值的话,纯度会比较高,否则的话,纯度越低,SI的值也就越大,最后得到的信息增益率越低.

说起来是比较简单的,实际操作一不留神还是会出现一些问题,特别是信息增益率=信息增益 / SI,对于信息增率,我一不留神经常直接写成分裂后的新熵值,以至于寻找错误花了很长时间.

具体更改如下:

 

 

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值