决策树（二）——决策树的剪枝（预剪枝和后剪枝）

最新推荐文章于 2024-04-20 22:40:18 发布

技术宅zch

最新推荐文章于 2024-04-20 22:40:18 发布

阅读量1.3w

点赞数 4

分类专栏：机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_19672707/article/details/98340081

版权

机器学习专栏收录该内容

11 篇文章 6 订阅

订阅专栏

决策树的剪枝

什么是决策树的剪枝？
为什么要剪枝？
- 剪枝策略的分类
预剪枝
- 优缺点
后剪枝
- 后剪枝算法的分类
- 优缺点
奥卡姆剃刀定律
预告andTODO
Reference

什么是决策树的剪枝？

对比日常生活中，环卫工人在大街上给生长茂密的树进行枝叶的修剪。在机器学习的决策树算法中，有对应的剪枝算法。将比较复杂的决策树，化简为较为简单的版本，并且不损失算法的性能。

为什么要剪枝？

剪枝是决策树算法防止过拟合的一种手段，因为在学习过程中，决策树根据训练样本进行拟合，生成了针对于训练数据集精确性极高的模型。但是训练数据集，不可避免是一种有偏的数据。
所以我们为了提高决策树的泛化性能，采取了剪枝的策略。使得决策树不那么对于训练数据精确分类，从而适应任何数据。

剪枝策略的分类

剪枝算法可以分为：预剪枝和后剪枝

预剪枝

预剪枝就是在决策树生成过程中，在每次划分时，考虑是否能够带来决策树性能的提升。

如果可以提升决策树的性能则会进行划分。
如果不能则会停止生长。

一般的方法有如下几种：

当树的深度达到一定的规模，则停止生长。
达到当前节点的样本数量小于某个阈值的时候。
计算每次分裂对测试集的准确性提升，当小于某个阈值，或不再提升甚至有所下降时，停止生长。
当信息增益，增益率和基尼指数增益小于某个阈值的时候不在生长。

优缺点

优点：思想简单，算法高效，采用了贪心的思想，适合大规模问题。
缺点：提前停止生长，有可能存在欠拟合的风险。

后剪枝

后剪枝是先从训练集生成一颗完整的决策树，然后自底向上的对决策树进行剪枝，与预剪枝最大的不同就是：
决策树是否生长完整。

决策树的生成是学习局部的模型，后剪枝则是学习整体的模型。

后剪枝算法的分类

错误率降低剪枝（REP）
悲观剪枝（PEP）
代价复杂度剪枝（CCP）
最小误差剪枝（MEP）
CVP （Critical Value Pruning）
OPP （Optimal Pruning）

本文以西瓜书为例，错误率降低剪枝（REP）。

将数据分为训练集和测试集，用训练集去生成一颗完整的决策树，用测试集去剪枝。

该算法将树上的每个节点都作为剪枝的候选对象，通过如下步骤进行剪枝操作：
step1：删除以此节点为根节点的树，
step2：使其成为叶子结点，赋予该节点最常见的分类
step3：对比删除前和删除后的性能是否有所提升，如果有则进行删除，没有则保留。

优缺点

优点：可以最大限度的保留树的各个节点，避免了欠拟合的风险。
缺点：相较于预剪枝的时间开销巨大。

奥卡姆剃刀定律

奥卡姆剃刀是一种思想，在效果相同，性能一致的情况下，模型越简单越好。在简直过程中，若复杂的决策树和简答的决策树的性能相同则优先选择结构简单的决策树。

预告andTODO

1.决策树的连续与缺失值的处理
2.Bagging——随机森林
3.Boosting——Adamboost，GBDT，Xgboost

Reference

[1] 《机器学习》 p79-p83
[2] 《百面机器学习》p67-p68
[3] https://www.cnblogs.com/starfire86/p/5749334.html

关注

4
点赞
踩
33

收藏

觉得还不错? 一键收藏
0
评论
决策树（二）——决策树的剪枝（预剪枝和后剪枝）

决策树的剪枝什么是决策树的剪枝？为什么要剪枝？剪枝策略的分类预剪枝优缺点后剪枝后剪枝算法的分类优缺点奥卡姆剃刀定律预告andTODOReference什么是决策树的剪枝？对比日常生活中，环卫工人在大街上给生长茂密的树进行枝叶的修剪。在机器学习的决策树算法中，有对应的剪枝算法。将比较复杂的决策树，化简为较为简单的版本，并且不损失算法的性能。为什么要剪枝？剪枝是决策树算法防止过拟合的一种手段，...
复制链接

扫一扫

专栏目录

技术宅zch CSDN认证博客专家 CSDN认证企业博客

码龄10年

79: 原创

5万+: 周排名

167万+: 总排名

29万+: 访问

: 等级

3106: 积分

89: 粉丝

370: 获赞

63: 评论

1084: 收藏

私信

关注

热门文章

分类专栏

最新评论

机器学习，深度学习模型训练阶段的Shuffle重要么？为什么？
新一代图书管理员の养成笔记: 对NN能记住100条数据中前50条和后50条的次序区别存疑：以MLP为例，它内部不存在可以记忆时间的结构，如果前50条和后50条的信息是一模一样的，输入MLP，也将得到一模一样的结果，而如果MLP能记住“第几条数据”这个信息，则不可能得到一模一样的结果，故MLP记不住第几条数据的信息
Python中yield的作用与for循环的区别，yield关键字的白话解析
CSDN-Ada助手: 多亏了你这篇博客, 解决了问题: https://ask.csdn.net/questions/8006779, 请多输出高质量博客, 帮助更多的人
机器学习，深度学习模型训练阶段的Shuffle重要么？为什么？
qiao_yx: 在处理数据集时，是否将不同类别的数据一起做shuffle或分开处理取决于具体的情况和任务要求。将所有数据一起做shuffle然后划分数据集：适用场景：当你希望保持数据的随机性，并且对类别的顺序不敏感时，可以将所有数据合并后进行shuffle，然后再划分成训练集、验证集和测试集等。示例：在一个分类任务中，如果不同类别的数据在训练集和测试集中的分布比例是一样的，那么可以将所有数据合并后进行shuffle。分开类别分别做对应的操作：适用场景：当你希望在数据集的划分或处理过程中保持类别的平衡时，可以先将不同类别的数据分开，然后分别进行shuffle和处理。示例：在一个分类任务中，如果你希望训练集和测试集中的每个类别的样本数量保持大致相等，那么可以先将数据按类别分开，然后分别shuffle，最后再合并成训练集和测试集。具体选择哪种方式取决于任务的要求和数据集的性质。在实践中，可以根据具体情况灵活选择合适的方法。无论选择哪种方式，都要保证数据集的划分和处理是公平、合理的，以保证模型训练和评估的可靠性。
聚类效果评估——轮廓系数（Silhouette Coefficient）附Python代码
Gaowaly: 博主您好，我觉的您好像没有回答为什么轮廓系数可以评价聚类效果的好坏？我有一个答案但不知道准确不准确，可能是由于它同时考虑了聚类的内聚度和分离度，综合考量了样本与所属簇内部的距离和样本与其它簇之间的距离。
TensorFlow1.x入门教程——统领篇
pure-pure: 帮助很大，谢谢博主！

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。