数据挖掘十大经典算法(十)-----CART

简介

CART(classification and regression tree),分类回归树,是在ID3的基础上进行优化的决策树。是一棵二叉树,且每一个非叶结点都有两个孩子。当CART是分类树是,采用GINI值作为结点分裂的依据;当CART是回归树时,采用样本的最小方差作为结点分裂的依据。

怎样从分支变量的众多取值中找到一个当前的最佳切割点(切割阈值)

数值型变量:对记录值从小到大金星排序,计算每一个值作为临界点产生的子结点的异质性统计量,可以使异质性减小程度最大的临界值便是最佳的划分点;

分类型变量:列出划分为两个子集的全部可能组合,计算每种组合下生成子结点的异质性;相同,找到使异质性减小程度最大的组合作为最佳划分点;

结点分裂的终止条件,满足以下其一即停止生长

  • 结点达到全纯性
  • 树的深度达到用户指定的深度
  • 结点中样本的个数少于用户指定的个数;
  • 异质性指标下降的最大幅度小于用户指定的幅度

剪枝

当分类回归树划分的太细时,会对噪声数据产生过拟合作用,因而需要使用剪枝进行解决。剪枝又分为前剪枝和后剪枝:前剪枝是指在构造树的过程中就知道哪些结点能够剪掉;后剪枝是指构造出完整的决策树之后再来考察哪些子树能够剪掉。

预测

回归树-----预测值为叶结点目标变量的加权均值

分类树-----某叶结点预测的分类值应是造成错判损失最小的分类值

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值