ML《决策树(二)C4.5》

上一篇我们学习的ID3算法呢,有一些缺点。

1:它只能处理离散值。

2:容易过拟合,因为我们拿到了样本,总是希望最后得到的样本是非常纯的,所以我那个我那个造成了过拟合,训练样本拟合很好,泛化能力降低。

3:在每一次的节点选择中啊,它总是倾向于某个属性值种类多的特征。

这里新增一个缺点
4:就是没有对缺失值的处理。

因此我们有另外一种决策树的算法,C4.5,它也是决策树算法。
我们主要来看看C4.5针对ID3的缺点进行的处理和改进吧。

====华丽分割线

其中三个呢,比较好理解,我就先写出来:
1)对于上述ID3缺点二,C4.5采用的是后剪枝策略,也就是在形成了一颗决策树后,对其做精简化处理,用递归的方式从低往上针对每一个非叶子节点,评估用一个最佳叶子节点去代替这课子树是否有益。如果剪枝后与剪枝前相比其错误率是保持或者下降,则这棵子树就可以被替换掉。C4.5 通过训练数据集上的错误分类数量来估算未知样本上的错误率。

后剪枝决策树的欠拟合风险很小,泛化性能往往比较好。但同时其训练时间会大的多。

2)对于上述ID3缺点一,C4.5采用的是连续数值离散化的方式,假设在样本集合D中,某个特征属性A有M个取值,那么将这个M的取值进行排序,分别计算相邻两个数值的平均值,于是我们可以得到M-1个点,这M-1个点作为划分点,分别计算器作为二分类时候的信息增益,并选择信息增益最大的划分点来作为该连续特征的二元分类离散点。

举个例子,属性A有M个取值,从小到大是:
V1,V2,V3,。。。。。。,VM
在这里插入图片描述

划分点Q点有M-1个,该特征A则有2M-2个二元分类点,分别是:
数值小于Q1的范围,数值大于等于Q1的范围;
数值小于Q2的范围,数值大于等于Q2的范围;
数值小于Q3的范围,数值大于等于Q3的范围;
数值小于Q4的范围,数值大于等于Q4的范围;
。。。。。。。。
分别计算其信息熵,也就是离散值取V等于某个值,连续值取V大于或者小于某个划分点。
这就是连续纸的离散化。

3)对于ID3的缺点四,C4.5采用了估计的方式,当然了,不是估计缺失值。

我们要解决两个小问题
一个问题是一个属性值有缺失,这个属性值应该是归于那个子节点呢(计算信息熵有用);
另一个问题是,属性值缺失,那么这个属性的固有信息熵怎么计算(后面要说到信息增益率,要用这个值)。

C4.5是这么处理的,对于问题一,将样本同时划分到所有子节点,不过要调整样本的权重值,其实也就是以不同概率划分到不同节点中,也就是按照概率猜测出其属性值咯。

对于问题二,既然这个值缺失了,那么就用没缺失的样本来估计下这个属性的固有信息熵咯。

4)对于ID3的缺点3,这也是致命的缺点,C4.5采用了信息增益率的方式。
在这里插入图片描述

C4.5呢在ID3的基础上作了很多的缺点弥补,但是自身以天然存在不足:
1:C4.5只能用于分类问题
2:引入的计算量大,还有排序操作,CPU和内存资源消耗大。

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值