ML《决策树（二）C4.5》

最新推荐文章于 2022-12-22 17:23:46 发布

星海千寻

最新推荐文章于 2022-12-22 17:23:46 发布

阅读量398

点赞数 1

分类专栏：机器学习文章标签：决策树机器学习 c4.5算法

本文链接：https://blog.csdn.net/qq_29367075/article/details/111772325

版权

机器学习专栏收录该内容

47 篇文章 5 订阅

订阅专栏

上一篇我们学习的ID3算法呢，有一些缺点。

1：它只能处理离散值。

2：容易过拟合，因为我们拿到了样本，总是希望最后得到的样本是非常纯的，所以我那个我那个造成了过拟合，训练样本拟合很好，泛化能力降低。

3：在每一次的节点选择中啊，它总是倾向于某个属性值种类多的特征。

这里新增一个缺点
4：就是没有对缺失值的处理。

因此我们有另外一种决策树的算法，C4.5，它也是决策树算法。
我们主要来看看C4.5针对ID3的缺点进行的处理和改进吧。

====华丽分割线

其中三个呢，比较好理解，我就先写出来：
1）对于上述ID3缺点二，C4.5采用的是后剪枝策略，也就是在形成了一颗决策树后，对其做精简化处理，用递归的方式从低往上针对每一个非叶子节点，评估用一个最佳叶子节点去代替这课子树是否有益。如果剪枝后与剪枝前相比其错误率是保持或者下降，则这棵子树就可以被替换掉。C4.5 通过训练数据集上的错误分类数量来估算未知样本上的错误率。

后剪枝决策树的欠拟合风险很小，泛化性能往往比较好。但同时其训练时间会大的多。

2）对于上述ID3缺点一，C4.5采用的是连续数值离散化的方式，假设在样本集合D中，某个特征属性A有M个取值，那么将这个M的取值进行排序，分别计算相邻两个数值的平均值，于是我们可以得到M-1个点，这M-1个点作为划分点，分别计算器作为二分类时候的信息增益，并选择信息增益最大的划分点来作为该连续特征的二元分类离散点。

举个例子，属性A有M个取值，从小到大是：
V1，V2，V3，。。。。。。，VM
在这里插入图片描述

划分点Q点有M-1个，该特征A则有2M-2个二元分类点，分别是：
数值小于Q1的范围，数值大于等于Q1的范围；
数值小于Q2的范围，数值大于等于Q2的范围；
数值小于Q3的范围，数值大于等于Q3的范围；
数值小于Q4的范围，数值大于等于Q4的范围；
。。。。。。。。
分别计算其信息熵，也就是离散值取V等于某个值，连续值取V大于或者小于某个划分点。
这就是连续纸的离散化。

3）对于ID3的缺点四，C4.5采用了估计的方式，当然了，不是估计缺失值。

我们要解决两个小问题
一个问题是一个属性值有缺失，这个属性值应该是归于那个子节点呢（计算信息熵有用）；
另一个问题是，属性值缺失，那么这个属性的固有信息熵怎么计算（后面要说到信息增益率，要用这个值）。

C4.5是这么处理的，对于问题一，将样本同时划分到所有子节点，不过要调整样本的权重值，其实也就是以不同概率划分到不同节点中，也就是按照概率猜测出其属性值咯。

对于问题二，既然这个值缺失了，那么就用没缺失的样本来估计下这个属性的固有信息熵咯。

4）对于ID3的缺点3，这也是致命的缺点，C4.5采用了信息增益率的方式。
在这里插入图片描述

C4.5呢在ID3的基础上作了很多的缺点弥补，但是自身以天然存在不足：
1：C4.5只能用于分类问题
2：引入的计算量大，还有排序操作，CPU和内存资源消耗大。

星海千寻

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
ML《决策树（二）C4.5》

上一篇我们学习的ID3算法呢，有一些缺点。1：它只能处理离散值。2：容易过拟合，因为我们拿到了样本，总是希望最后得到的样本是非常纯的，所以我那个我那个造成了过拟合，训练样本拟合很好，泛化能力降低。3：在每一次的节点选择中啊，它总是倾向于某个属性值种类多的特征。这里新增一个缺点4：就是没有对缺失值的处理。因此我们有另外一种决策树的算法，C4.5，它也是决策树算法。我们主要来看看C4.5针对ID3的缺点进行的处理和改进吧。====华丽分割线其中三个呢，比较好理解，我就先写出来：1）对于上述I
复制链接

扫一扫