分类：决策树——剪枝

最新推荐文章于 2024-03-23 06:46:43 发布

hgz_dm

最新推荐文章于 2024-03-23 06:46:43 发布

阅读量1.4k

点赞数

分类专栏：算法与模型文章标签：决策树剪枝 REP PEP CCP

本文链接：https://blog.csdn.net/huguozhiengr/article/details/81979217

版权

本篇是决策树系列的第二篇，介绍一下决策树的剪枝过程。过拟合是决策树构建过程中常见的问题，信息失衡、噪声等问题都会导致过拟合，剪枝则是提高决策树模型泛化能力的重要手段，下面对常用的剪枝方法作一些介绍。

1. 预剪枝

决策树系列第一篇《分类：决策树——树的生长》中提到过，树的生长是一种“完全”式的生长，终止条件也仅有“所有的样本属于同一类，或者所有的样本具有相同的属性值”这两条，但有时可以再增加一些终止条件，提前结束树的生长，这个过程相当于在一棵“完全”生长的树上剪去一些枝干，这就是预剪枝过程。例如，可以增加这样一条生长终止条件：当结点划分后度量参数（信息增益、增益率或者基尼指数）变化小于设定阈值时，则将该结点当作叶子结点，不予划分。

预剪枝过程简单，计算量也较小，但是它有两个缺点，一个是前面提到的终止生长时设定的阈值，该值通常难以确定，另一个则是会出现“欠拟合”现象，在当前结点上的划分效果不理想时，但其子女结点上的划分效果可能会比较理想，预剪枝过程容易发生这种情况。

一般预剪枝方法在实际中不会用到。

2. 后剪枝

后剪枝是在决策树生长停止之后进行的剪枝，按照剪枝的方向，分为从上至下(top-bottom)和从下至上(bottom-top)。后剪枝方法有多种，除了剪枝方向的区别外，主要的区别在在于剪枝的条件，现依据剪枝条件的不同，介绍一下常用的几种后剪枝方法。

1.1 REP(Reduced Error Pruning)方法

REP方法是Quinlan教授提出的，采用从下至上(bottom-top)的剪枝方式。使用该方法时，需要将样本划分为训练集和验证集，然后从树底到树顶，将每个内部结点生成的子树用该结点代替，实现剪枝，用验证集来判断剪枝前后的误差，若剪枝后误差增大，则取消剪枝，反之则剪枝。

从剪枝的过程来看，REP方法是比较简单的，每个子树只需要访问一次，所以它的计算过程是线性的。该方法的缺点一个是需要将样本集划分为训练集与验证集，这在样本量不足够大时比较影响模型构建；另外一个是当验证集/训练集中包含的信息在训练集/验证集中未出现时，剪枝反而降低了模型泛化能力。

样本量不大时一般不使用REP剪枝方法。

1.2 PEP(Pessimistic Error Pruning)方法

PEP方法是Quinlan教授为了弥补REP方法需要单独的验证集的缺点而提出的剪枝方法，模型的构建、剪枝过程使用同一个样本集，该方法使用采用从上至下(top-bottom)的方式。由于剪枝时采用的同一样本集，因此更趋向于不剪枝，毕竟更多的子树能做更准确的分类，为此PEP方法中为每一个叶子结点引入了惩罚项 $\Omega$ ，一般取 $\Omega =1/2$ 。对于一棵二叉树来说， $\Omega =1/2$ 意味着只要能够改善一个训练记录的分类，就应该划分结点；对于一棵m叉树来说， $\Omega =1/2$ 意味着必须改善 $\left | m/2 \right |$ 个训练记录的分类时才应该划分结点，其中 $\left | m/2 \right |$ 表示大于 m/2 的最小整数。因此，在引入惩罚项后，更多的子树就不一定能做到更准确的分类了。

未引入惩罚项前，叶子结点 $t_{i}$ 的误分类率 $r(t_{i})$ 定义为

$r(t_{i})=e(t_{i})/n(t_{i})$ (1)

$e(t_{i})$ 为该结点上的误分类数， $n(t_{i})$ 为该结点所包含的样本数。引入惩罚项后，

最低0.47元/天解锁文章

hgz_dm

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
分类：决策树——剪枝

本篇是决策树系列的第二篇，介绍一下决策树的剪枝过程。过拟合是决策树构建过程中常见的问题，信息失衡、噪声等问题都会导致过拟合，剪枝则是提高决策树模型泛化能力的重要手段，下面对常用的剪枝方法作一些介绍。1.预剪枝决策树系列第一篇《分类：决策树——树的生长》中提到过，树的生长是一种“完全”式的生长，终止条件也仅有“所有的样本属于同一类，或者所有的样本具有相同的属性值”...
复制链接

扫一扫

专栏目录