决策树-树枝裁剪

最新推荐文章于 2022-11-23 16:58:50 发布

你今天机器学习了么

最新推荐文章于 2022-11-23 16:58:50 发布

阅读量1k

点赞数 1

文章标签：决策树

本文链接：https://blog.csdn.net/None_Pan/article/details/106031069

版权

树枝裁剪-后修剪

顾名思义，修剪发生在生成一棵树后（并且在没有下文所述的提前停止的情况下），它可能会过拟合。 CART算法将反复将数据划分为越来越小的子集，直到这些最终子集在结果变量方面是同质的为止。实际上，这通常意味着最终的子集（称为树的叶子）每个仅包含一个或几个数据点。树已经准确地学习了数据，但是可能无法很好地预测出非常微小的新数据点。

我将考虑2种修剪策略，

最小误差。将树修剪回交叉验证的误差最小的点。交叉验证是使用大多数数据构建一棵树，然后使用数据的其余部分来测试决策树的准确性的过程。

最小的树。该树的修剪程度比最小错误略大。从技术上讲，修剪会创建一个决策树，该树的交叉验证误差在最小误差的1个标准误差之内。较小的树更易于理解，但代价是误差会有所增加。

Reduced Error Pruning
这种方法由Quinlan提出。这是决策树修剪中最简单，最容易理解的方法。该方法认为树中的每个决策节点都是修剪的候选，包括删除以该节点为根的子树，使其成为叶节点。可用数据分为三个部分：

训练示例
用于修剪树的验证示例
以及一组测试示例

用于提供对将来看不见的示例的准确性的无偏估计。如果新树的错误率等于或小于原始树的错误率，并且该子树不包含具有相同属性的子树，则将子树替换为叶节点，这意味着修剪已完成。否则不要修剪它。这种方法的优点是线性计算复杂度。当测试集比训练集小得多时，该方法可能会导致过度修剪。许多研究人员发现，就准确性而言，减少错误修剪的效果与大多数其他修剪方法一样，并且在树大小方面优于大多数修剪方法

Minimum Error pruning
此方法由Niblett和Brotko开发。这是一种自下而上的方法，它寻求一棵目标树，该树将对独立数据集的预期错误率最小化。如果预计所有将来的示例都将在c类中，则使用以下等式预测节点t处的预期修剪错误率：
在这里插入图片描述