周志华《机器学习》4.3 剪枝处理笔记

最新推荐文章于 2020-02-27 11:18:52 发布

lvweishuai001

最新推荐文章于 2020-02-27 11:18:52 发布

阅读量898

点赞数

剪枝处理

在决策树学习中，为了尽可能正确分类训练样本，结点划分过程将不断重复，有时会造成决策树分支过多，这时就有可能把训练样本学习的太好，以至于把训练集的某一些特点当做是所有数据都具有的一般性质，这时就发生了过拟合。因此可以通过主动去掉一些分支来降低过拟合的风险。剪枝是决策树学习算法对付“过拟合”的主要手段。
决策树剪枝的基本策略有两种：
（1）预剪枝 ：预剪枝是在决策树生成过程中，对每个结点在划分前先进行评估，如果当前结点的划分不能带来决策树泛化能力的提升，则停止划分并将当前结点标记为叶结点。
（2） 后剪枝：先从训练集生成一颗完整的决策树，然后自底向上地对非叶结点进行考察，如果将该结点对应的子树替换为叶结点能带来决策树泛化能力的提升，则将该子树替换为叶结点。
我们使用一定的性能评估方法来判断决策树泛化性能是否有提升。评估方法：使用一个测试集来测试学习器对新样本的判别能力，然后在测试集上的“测试误差”作为泛化误差的近似，需要注意的是测试集要与训练集互斥，即测试样本不在训练集中出现、使用。
留出法：直接将数据集D划分为两个互斥的集合，其中一个集合作为训练集，另一个作为测试集。需要注意的是，训练/测试集的划分要尽可能保持数据分布的一致性，避免因数据划分过程引入额外的偏差而对最终结果产生影响。
本节使用留出法，预留一部分数据用作“验证集”来进行性能评估，如下表。

在这里插入图片描述
训练集是双线上部，验证集是双线下部，在这里我们使用信息增益准则来进行属性划分选择。公式如下
信息熵：

信息增益：

从上表的训练集生成的决策树如下图所示

预剪枝

选取“脐部”对训练集进行划分，产生三个分支，如下图所示
在这里插入图片描述

在划分前，所有样例集中在根结点，如果不进行划分，则根据算法

lvweishuai001

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
周志华《机器学习》4.3 剪枝处理笔记

剪枝处理在决策树学习中，为了尽可能正确分类训练样本，结点划分过程将不断重复，有时会造成决策树分支过多，这时就有可能把训练样本学习的太好，以至于把训练集的某一些特点当做是所有数据都具有的一般性质，这时就发生了过拟合。因此可以通过主动去掉一些分支来降低过拟合的风险。剪枝是决策树学习算法对付“过拟合”的主要手段。决策树剪枝的基本策略有两种：（1）预剪枝：预剪枝是在决策树生成过程中，对每个结点在划...
复制链接

扫一扫