机器学习笔记（6）——C4.5决策树中的剪枝处理和Python实现

最新推荐文章于 2024-08-12 16:23:26 发布

赵赵赵颖

最新推荐文章于 2024-08-12 16:23:26 发布

阅读量2w

点赞数 30

分类专栏：机器学习笔记文章标签： C4.5 决策树机器学习剪枝

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/leaf_zizi/article/details/83380081

版权

本文介绍了C4.5决策树的剪枝处理，包括预剪枝和后剪枝，旨在降低过拟合风险。通过西瓜数据集划分训练集和验证集，展示了预剪枝中如何依据验证集精度决定是否划分，以及后剪枝自底向上评估非叶节点的过程。最后，讨论了预剪枝和后剪枝的优缺点，并提供了后剪枝的Python实现代码资源。

摘要由CSDN通过智能技术生成

1. 为什么要剪枝

还记得决策树的构造过程吗？为了尽可能正确分类训练样本，节点的划分过程会不断重复直到不能再分，这样就可能对训练样本学习的“太好”了，把训练样本的一些特点当做所有数据都具有的一般性质，从而导致过拟合。这时就可以通过剪枝处理去掉一些分支来降低过拟合的风险。

剪枝的基本策略有“预剪枝”（prepruning）和“后剪枝”（post-pruning）：

预剪枝是在决策树的生成过程中，对每个结点划分前先做评估，如果划分不能提升决策树的泛化性能，就停止划分并将此节点记为叶节点；

后剪枝是在决策树构造完成后，自底向上对非叶节点进行评估，如果将其换成叶节点能提升泛化性能，则将该子树换成叶节点。

那么怎么判断泛化性能是否提升呢？这时需要将数据集分为训练集和验证集，利用训练集构造决策树，利用验证集来评估剪枝前后的验证集精度（即正确分类的比例）。

下面我们把之前的西瓜数据集划分为训练集和验证集，之后在分别详细演示预剪枝和后剪枝的处理过程。

首先利用训练集数据，构造一个未做剪枝处理的决策树，以便于与剪枝后的决策树做对比。

注意：这里构造的决策树与《机器学习》中的不一样，因为色泽、根蒂、脐部三个属性的信息增益是相等的，都可以作为最优划分属性。

2. 预剪枝

我们先学习预剪枝的过程：

（1）根据信息增益准则，选取“色泽”作为根节点进行划分，会产生3个分支（青绿、乌黑、浅白）。

对根节点“色泽”，若不划分，该节点被标记为叶节点，训练集中正负样本数相等，我们将其标记为“是”好瓜（当样本最多的类不唯一时，可任选其中一类，我们默认都选正类）。那么训练集的7个样本中，3个正样本被正确分类，验证集精度为3/7*100%=42.9%。

对根节点“色泽”划分后，产生图中的3

最低0.47元/天解锁文章

关注

30
点赞
踩
135

收藏

觉得还不错? 一键收藏
61
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 61

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。