决策树之C4.5算法

C4.5算法是机器学习中的一个重要的决策树算法,它是对ID3算法的改进,相对于ID3算法主要有以下几个改进

 

  (1)用信息增益率来选择属性

  (2)在决策树的构造过程中对树进行剪枝

  (3)对非离散数据也能处理

  (4)能够对不完整数据进行处理

 

接下来分别详细讲述这几点的改进方案

 

(1)用信息增益率来选择属性

 

    在ID3算法中,我们知道是用信息增益来选择属性的,而信息增益的缺点是比较偏向选择取值较多的属性,

    在C4.5算法中,除了一项分裂信息来惩罚取值更多的属性,所以得到如下公式

 

                        

 

    其中表示信息增益,而表示分裂信息,它的计算公式如下

 

                        

    表示当前属性的所有取值。

 

 

(2)在决策树的构造过程中对树进行剪枝

 

    在C4.5算法中,采用了悲观剪枝的方法,它使用训练集生成决策树,又用训练集来进行剪枝。

 

    悲观剪枝法的基本原理参考:http://www.cnblogs.com/zhangchaoyang/articles/2842490.html

 

 

(3)对非离散数据也能处理

 

    其实C4.5算法对连续性数据的处理也是当作离散数据处理的,具体可以参考上面的链接。

 

 

最后介绍一个机器学习软件weka,weka中C4.5算法的使用参考:http://www.docin.com/p-27992090.html

 

  • 5
    点赞
  • 13
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值