决策树之剪枝

本文介绍了决策树过拟合现象及剪枝的重要性,详细讲解了基于损失函数的剪枝算法,包括损失函数的定义、剪枝过程及其动态规划实现,旨在理解决策树如何通过剪枝优化整体模型复杂度。
摘要由CSDN通过智能技术生成

    本文主要参考李航老师的《统计学习方法》一书,如有不妥之处,欢迎指出。

    决策树生成算法递归地产生决策树,直到不能继续下去为止,这样产生的树往往对训练数据的分类很准确,但对为止的测试数据的分类却没有那么准确,即出现过拟合现象。过拟合的原因在与学习时过多地考虑如何提高对训练数据的正确分类,从而构建出过于复杂的决策树,解决这个问题的方法是考虑决策树的复杂度,对已生成的决策树进行简化。

    对决策树学习中将已生成的树进行简化的过程称为剪枝(pruning).具体地,剪枝从已生成的树上裁掉一些子树或叶结点,并将其根节点或父节点作为新的叶节点从而简化分类树模型。

    这里主要介绍一种简单的决策树学习的剪枝算法。

    决策树的剪枝往往通过极小化决策树整体的损失函数(loss function)或代价函数(cost function)来实现,设树T的叶结点个数为|T|,t是树T的叶结点,该叶结点有Nt个样本,其中k类的样本点有Ntk个,k=1,2,...,K,Ht(T)为叶结点t上的经验上,α ≥0为参数,则决策树学习的损失函数可以定义为:

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值