决策树的剪枝

摘自《机器学习导论》

剪枝

通常,如果到达一个节点的训练实例数小于训练集的某个百分比(例如,5%),则无论是不纯(离散数据)还是误差(连续数据),该节点都不进一步划分。其基本思想是,基于过少实例的决策树会导致较大的方差,从而导致加大的泛化误差。在树完全构造出来之前就提前停止树构造称作树的先剪枝(prepruning)。

得到较小树的另一种可能做法是后剪枝(postpruning),在实践中它比先剪枝效果更好。鉴于树的生长是贪心的,在每一步我们做出一个决策(即产生一个决策节点)以继续进行,绝不会说尝试其他可能的选择。唯一例外是后剪枝,它试图找出并剪出不必要的子树。

在后剪枝中,我们让树完全增长直到所有的树叶都是纯的且训练误差为0。然后我们找出导致过拟合的子树并剪除它们。我们从最初的被标记的数据集中保留一个剪枝集,在训练阶段不使用它。对每棵子树,我们用一个被该子树覆盖的训练实例标记的树叶节点替换它。如果该树叶在剪枝集上的性能不比该子树差,则剪掉该子树病保留树叶节点,因为该子树的附加复杂性是不必要的;否则保留子树。

先剪枝速度快,后剪枝准确率高

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值