数据挖掘十大经典算法(一)----C4.5

C4.5分类决策算法是对核心算法ID3的改进,体现在以下几个方面:(1)使用信息增益率来选择属性,克服了使用信息增益来选择属性时偏向选择取值多的属性的不足;(2)在树的构造过程中进行剪枝;(3)可以完善对连续属性的离散化处理;(4)可以对不完整数据进行处理。

优点:产生的分类规则易于理解,准确率较高。

缺点:在构造树的过程中,需要对数据集进行多次的顺序扫描和排序,因而导致算法低效。

适用:仅仅适用于可以驻留于内存的数据集。当训练集大的无法在内存容纳时程序无法执行。
 
 C4.5对ID3算法的改进: 
1、 熵的改进,加上了子树的信息. 适用信息增益率作为启发式标准。

2、  在输入数据上的改进. 
   1) 属性的值能够是连续量,C4.5 对其排序并分成不同的集合后依照ID3 算法当作离散量进行处理,但结论属性的值必须是离散值. 
   2)  训练集的属性值能够是不确定的,以    ?    表示,但结论必须是确定的 
   3)对已生成的决策树进行裁剪,减小生成树的规模.

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值