周志华《机器学习》4.3 剪枝处理 笔记

剪枝处理

在决策树学习中,为了尽可能正确分类训练样本,结点划分过程将不断重复,有时会造成决策树分支过多,这时就有可能把训练样本学习的太好,以至于把训练集的某一些特点当做是所有数据都具有的一般性质,这时就发生了过拟合。因此可以通过主动去掉一些分支来降低过拟合的风险。剪枝是决策树学习算法对付“过拟合”的主要手段。
决策树剪枝的基本策略有两种:
(1)预剪枝 :预剪枝是在决策树生成过程中,对每个结点在划分前先进行评估,如果当前结点的划分不能带来决策树泛化能力的提升,则停止划分并将当前结点标记为叶结点。
(2) 后剪枝:先从训练集生成一颗完整的决策树,然后自底向上地对非叶结点进行考察,如果将该结点对应的子树替换为叶结点能带来决策树泛化能力的提升,则将该子树替换为叶结点。
我们使用一定的性能评估方法来判断决策树泛化性能是否有提升。评估方法:使用一个测试集来测试学习器对新样本的判别能力,然后在测试集上的“测试误差”作为泛化误差的近似,需要注意的是测试集要与训练集互斥,即测试样本不在训练集中出现、使用。
留出法:直接将数据集D划分为两个互斥的集合,其中一个集合作为训练集,另一个作为测试集。需要注意的是,训练/测试集的划分要尽可能保持数据分布的一致性,避免因数据划分过程引入额外的偏差而对最终结果产生影响。
本节使用留出法,预留一部分数据用作“验证集”来进行性能评估,如下表。

在这里插入图片描述
训练集是双线上部,验证集是双线下部,在这里我们使用信息增益准则来进行属性划分选择。公式如下
信息熵:
在这里插入图片描述
信息增益:
在这里插入图片描述
从上表的训练集生成的决策树如下图所示
在这里插入图片描述

预剪枝

选取“脐部”对训练集进行划分,产生三个分支,如下图所示
在这里插入图片描述

在划分前,所有样例集中在根结点,如果不进行划分,则根据算法

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值