决策树(二)--构造特征树和剪枝

前面记录了特征值的选取,现在我们就来说一下剪枝。决策树的剪枝在决策树创建时,由于数据中的噪声和离群点,许多分枝反映的是训练数据中的异常,剪枝方法处理这种过分拟合数据的问题。有常用的两种剪枝方法:先剪枝和后剪枝。    先剪枝:通过提前停止树的构建(例如,通过决定在给定的结点不再分裂或划分训练元组的子集)而对树"剪枝"。一旦停止,结点就成为树叶。    后剪枝:由"完全生长"的树...
摘要由CSDN通过智能技术生成

前面记录了特征值的选取,现在我们就来说一下剪枝。

决策树的剪枝

在决策树创建时,由于数据中的噪声和离群点,许多分枝反映的是训练数据中的异常,剪枝方法处理这种过分拟合数据的问题。

有常用的两种剪枝方法:先剪枝和后剪枝。

    先剪枝:通过提前停止树的构建(例如,通过决定在给定的结点不再分裂或划分训练元组的子集)而对树"剪枝"。一旦停止,结点就成为树叶。

    后剪枝:由"完全生长"的树剪去子树,通过删除结点的分枝并使用树叶替换它而剪掉给定节点上的子树。该树叶的类标号用子树中最频繁的类标记。 

决策树的剪枝往往通过极小化决策树整体的损失函数或代价函数来实现。设树T的叶结点的个数为|T|t是树T的叶结点,该叶结点有N_{t}个样本点,其中k类的样本点有N_{tk}个,k=1,2,...KH_{t}(T)为叶结点t上的经验熵,则决策树的损失函数可以定义为:

                                                     C_{a}(T)={C(T)+a|T|}   (损失函数=拟合度+a*模型复杂度)

其中C(T)={\sum_{i=1}^{|T|}{N_{t}H_{t}(T)}表示模型对训练数据的预测误差,即模型与训练数据的拟合程度。

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值