决策树剪枝算法

决策树剪枝策略详解

最新推荐文章于 2025-03-13 16:19:09 发布

原创

最新推荐文章于 2025-03-13 16:19:09 发布 · 2.8w 阅读

33 ·

CC 4.0 BY-SA版权

文章标签：

#决策树 #剪枝策略

本文详细介绍了决策树剪枝的重要性及其策略，包括预剪枝和后剪枝，重点讲解了误差降低剪枝、悲观错误剪枝、最小误差剪枝、代价复杂剪枝等后剪枝方法，旨在提高决策树模型的泛化能力。

　　剪枝作为决策树后期处理的重要步骤，是必不可少的。没有剪枝，就是一个完全生长的决策树，是过拟合的，需要去掉一些不必要的节点以使得决策树模型更具有泛化能力。

决策树

　　决策树就是对一棵形似于树的判决模型，树的节点是某个属性，及分裂点，树的叶是类型。
　　在生长过程中，可以有很多种不同的生成准则，具体就不在详述了。不清楚的同学参考之前的博客：http://blog.csdn.net/yujianmin1990/article/details/47406037
　　今天主要讲的是决策树的剪枝策略。

决策树剪枝

　　为什么剪枝？
　　我们生成的好好的决策树，为什么要对其进行剪枝呢？因为我们在生成树的过程中，如果没有剪枝的操作的话，就会长成每一个叶都是单独的一类的样子。这样对我们的训练集是完全拟合的，但是对测试集则是非常不友好的，泛化能力不行。因此，我们要减掉一些枝叶，使得模型泛化能力更强。
　　根据剪枝所出现的时间点不同，分为预剪枝和后剪枝。预剪枝是在决策树的生成过程中进行的；后剪枝是在决策树生成之后进行的。

剪枝策略

　　剪枝之后，对该节点的类别判别是用“大多数原则“，选择当前数据集下的最多的类标签为该节点的类别。
　　1）Reduced Error Pruning：误差降低剪枝
　　最简单粗暴的一种后剪枝方法，其目的减少误差样本数量。
　　 $f(T)=-\sum_{t \in T}e(t)$
　　其中 $e(t)$ 表示在节点 $t$ 下的样本的误判个数； $T$ 表示当前树的节点。
　　 $f(T')=-\sum_{t \in T'}e(t)$
　　其中 $T'$ 表示去掉某个节点 $N$ 之后的树的节点； $e(t)$ 表示某个节点下的训练样本点误判数量。
　　剪枝的条件： $f(T) \leqslant f(T')$ ，即 $e(t_{K'}) \leqslant e(t_{K})$
　　剪枝之后使得误差降低。
　　1）Pessimistic Error Pruning：悲观错误剪枝
　　该方法基于训练数据的误差评估，因此不用单独找剪枝数据集。但训练数据也带来错分误差偏向于训练集，因此需要加入修正1/2。是自上而下的修剪。
　　具有 $T$ 个节点的树的误差率衡量为：
　　 $E(T) = \sum_{t \in T}\frac{e(t)+1/2}{N(t)}$
　　去掉节点 $K$ 之后 $T'$ 个节点的树的误差衡量为（此衡量方法侧重对每个节点的衡量），有的在前面加负号的，基本推导是一致的，剪枝条件的结论是一样的。
　　 $E(T')=\sum_{t \in T, excep K}\frac{e(t)+1/2}{N(t)}$
　　 $e(t)$ 表示节点 t

最低0.47元/天解锁文章

7 条评论

炒方便面 2019.05.19
悲观剪枝可以看看这篇：https://blog.csdn.net/weixin_41647586/article/details/89052754

微电子学与固体电子学-俞驰 2018.11.12
"e(t)表示某个节点下的训练样本点误判数量" 这个说法错误，根据文献[6]【An Empirical Comparison of Pruning Methods for DecisionTree 】2.2.4中的一句话：The pruned node will often make fewer errors on the test data than the sub-tree makes. 也就是说，ＲＥＰ提高泛化能力是为了提高验证集（ｔｅｓｔ　ｄａｔａ）的，所以这里的e(t)指的不是训练集，而是验证集的错误数量。

微电子学与固体电子学-俞驰 2018.11.12
“对每个节点，计算剪枝前和剪枝后的误判个数，若是剪枝有利于减少误判（包括相等的情况），则减掉该节点所在分支。” 这个说法是错误的，ＥＢＰ和ＰＥＰ都是在确保精度不丢失太多的情况下，尽可能减少决策树的体积，以便于进行知识抽取，建议博主跑一下该作者的代码，就会发现运行后，错误会有少量的增加，决策树体积会有很大程度简化。

微电子学与固体电子学-俞驰 2018.11.12
[code=cpp] 4）Error-Based Pruning：基于错误的剪枝[6] 　　该方法由Quinlan在1992年的C4.5算法中首次提出并使用。使用测试集来剪枝。　　对每个节点，计算剪枝前和剪枝后的误判个数，若是剪枝有利于减少误判（包括相等的情况），则减掉该节点所在分支。 [/code] 这个表述不对，Error based Pruning 是不需要测试集剪枝的。具体理由如下：Ｅｒｒｏｒ based Pruning 出自《C4.5 programs for machine learning》4.2 该剪枝算法的代码实现是http://www.rulequest.com/Personal/c4.5r8.tar.gz 博主可以运行下，看看是否需要测试集。

微电子学与固体电子学-俞驰 2018.11.12
[5]【Simplifying Decision Trees】 [6]【An Empirical Comparison of Pruning Methods for DecisionTree 】这两篇文章中都有PEP的具体实例，在判断是否剪枝时，并没有除以N(t)

微电子学与固体电子学-俞驰 2018.11.12
[code=cpp] 博主对ＰＥＰ的描述是不对的，PEP采用的是悲观错误数，而不是悲观错误率悲观错误率是在ＥＢＰ中才采用的建议重新核对下参考文献中的这两篇文章： [5]【Simplifying Decision Trees】 [6]【An Empirical Comparison of Pruning Methods for DecisionTree 】 [/code]
- 于建民回复微电子学与固体电子学-俞驰 2018.11.14
  [reply]appleyuchi[/reply] 非常感谢小鱼池兄的斧正，看来这篇博客需要重新修订了。好久远的博客了，被认真的小鱼池兄耐心地修正了这么多错误。