数据挖掘—决策树几种方法的比较

1. C&R 树

classification and regression trees 是一种基于树的分类和预测方法,模型使用简单,易于理解(规则解释起来更简明易),该方法通过在每个步骤最大限度降低不纯洁度,使用递归分区来将训练记录分割为组。然后,可根据使用的建模方法在每个分割处自动选择最合适的预测变量。如果节点中100% 的观测值都属于目标字段的一个特定类别,则该节点将被认定为“纯洁”。目标和预测变量字段可以是范围字段,也可以是分类字段;所有分割均为二元分割(即分割为两组)。分割标准用的是基尼系数(Gini Index)。

2. QUEST决策树

 优点:运算过程比C&R 树更简单有效quick unbiased efficient statistical tree (快速无偏有效的统计树)QUEST 节点可提供用于构建决策树的二元分类法,此方法的设计目的是减少大型 C&R 决策树分析所需的处理时间,同时减小分类树方法中常见的偏向类别较多预测变量的趋势。预测变量字段可以是数字范围的,但目标字段必须是分类的。所有分割都是二元的。

3. CHAID决策树

 优点(chi-squared automatic interaction detection,卡方自动交互检测),通过使用卡方统计量识别最优分割来构建决策树的分类方法

1) 可产生多分支的决策树

2) 目标和预测变量字段可以是范围字段,也可以是分类字段

3) 从统计显著性角度确定分支变量和分割值,进而优化树的分枝过程(前向修剪)

4) 建立在因果关系探讨中,依据目标变量实现对输入变量众多水平划分

4. C5.0决策树

优点:执行效率和内存使用改进、适用大数据集

1) 面对数据遗漏和输入字段很多的问题时非常稳健;

2) 通常不需要很长的训练次数进行估计;工作原理是基于产生最大信息增益的字段逐级分割样本

3) 比一些其他类型的模型易于理解,模型推出的规则有非常直观的解释;

4) 允许进行多次多于两个子组的分割。目标字段必须为分类字段

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值