浅谈决策树c4.5

C4.5算法是Quilan在1993年提出的,作为ID3的改进版,它使用信息增益率选择属性,能处理连续属性和不完整数据。算法主要步骤包括:选择信息增益率最高的属性进行划分,对连续属性进行离散化,处理属性值缺失问题,并通过预剪枝和后剪枝防止过拟合。C4.5的优点是易于理解和准确率高,但效率较低。
摘要由CSDN通过智能技术生成

一、C4.5算法的简介

            1993年由Quilan提出的C4.5算法(对ID3的改进)

             C4.5比ID3的改进:

            1) 用信息增益率来选择属性,克服了用信息增益选择属性时偏向选择取值多的属性的不足;
            2)能够完成对连续属性的离散化处理;
            3)能够对不完整数据进行处理;
            4)在树构造过程中进行剪枝。

            C4.5算法优点:产生的分类规则易于理解,准确率较高。

            C4.5算法缺点:在构造树的过程中,需要对数据集进行多次的顺序扫描和排序,因而导致算法的低效。

            与ID3不同,C4.5采用基于信息增益率(information Gain Ratio)的方法选择测试属性,信息增益率等于信息增益对分割信息量的比值。
            GainRatio(S,F)=Gain(S,F)/SplitInformation(S,F)
            设样本集S按离散属性F的V个不同的取值划分为,共V个子集
            定义分割信息量Split(S, F):

                                        

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值