机器学习笔记（XII）决策树(II)剪枝处理

最新推荐文章于 2023-09-04 17:45:50 发布

王先生的副业

最新推荐文章于 2023-09-04 17:45:50 发布

阅读量543

点赞数

分类专栏：机器学习机器学习文章标签：机器学习算法性能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/uncle_gy/article/details/78844898

版权

机器学习同时被 2 个专栏收录

46 篇文章 3 订阅

订阅专栏

39 篇文章 5 订阅

订阅专栏

剪枝(pruning)

目的

剪枝操作是决策树学习算法对付“过拟合”的主要手段。

因为有时候决策树的分支过多，导致训练集合把自身的一些特点当作所有数据都具有的一般性质而导致过拟合。因此主动剪掉一些分支来降低过拟合的风险。

预剪枝(prepruning)

具体做法

指的是在决策树的生成过程中，对每个结点在划分前进行估计，如果当前结点的划分不能带来决策树泛化性能的提升，则停止划分当前结点并且标记为叶子节点。

优缺点

优点

预剪枝使得决策树的很多分支都没有展开，这不仅降低了过拟合的风险而且显著减少了决策树的训练时间开销和测试时间开销。

缺点

有些分支的划分虽然当前并不能提高泛化性能，甚至有时会导致泛化性能的下降，但是在其基础上进行的后续划分却有可能导致泛化性能的提高，而预剪枝则抹杀了这种可能性。
预剪枝是基于“贪心”本质禁止分支展开，因此有可能导致欠拟合。

后剪枝(postpruning)

具体做法

先从训练集合中生成一棵完整的决策树，然后自底向上地对非叶结点进行考察，若能将该结点对应的子树替换为叶子结点可以带来决策树泛化性能的提升，则将子树替换为叶子结点。

优缺点

优点

欠拟合风险小，泛化性能往往优于预剪枝决策树

缺点

在完全生成决策树之后进行，并且要自底向上地对树中所有非叶子结点逐一进行考察，因此其训练时间开销比未剪枝决策树和预剪枝决策树大得多

泛化性能的判断

如何判断泛化性能是否提升？
做法：可以采用留出法，保留一部分的数据作为“验证集”以进行性能评估。
此时一共有两个部分的集合:训练集 $S$ ，验证集 $T$
使用训练集 $S$ ，生成一棵决策树。
泛化性能就是指使用验证集 $T$ 是对样例预判的正确率。正确率越高，泛化性能就越好。

王先生的副业

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
机器学习笔记（XII）决策树(II)剪枝处理

剪枝(pruning)目的剪枝操作是决策树学习算法对付“过拟合”的主要手段。因为有时候决策树的分支过多，导致训练集合把自身的一些特点当作所有数据都具有的一般性质而导致过拟合。因此主动剪掉一些分支来降低过拟合的风险。预剪枝(prepruning)具体做法指的是在决策树的生成过程中，对每个结点在划分前进行估计，如果当前结点的划分不能带来决策树泛化性能的提升，则停止划分当前结点并且标记为叶子节点。优缺点优
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。