数据挖掘—决策树几种方法的比较

Neo_226

于 2015-09-01 11:55:23 发布

阅读量3k

点赞数

分类专栏：分类文章标签：决策树分类数据挖掘

分类专栏收录该内容

2 篇文章 1 订阅

订阅专栏

1. C&R 树

classification and regression trees 是一种基于树的分类和预测方法，模型使用简单，易于理解（规则解释起来更简明易），该方法通过在每个步骤最大限度降低不纯洁度，使用递归分区来将训练记录分割为组。然后，可根据使用的建模方法在每个分割处自动选择最合适的预测变量。如果节点中100% 的观测值都属于目标字段的一个特定类别，则该节点将被认定为“纯洁”。目标和预测变量字段可以是范围字段，也可以是分类字段；所有分割均为二元分割（即分割为两组）。分割标准用的是基尼系数(Gini Index)。

2. QUEST决策树

优点：运算过程比C&R 树更简单有效quick unbiased efficient statistical tree （快速无偏有效的统计树）QUEST 节点可提供用于构建决策树的二元分类法，此方法的设计目的是减少大型 C&R 决策树分析所需的处理时间，同时减小分类树方法中常见的偏向类别较多预测变量的趋势。预测变量字段可以是数字范围的，但目标字段必须是分类的。所有分割都是二元的。

3. CHAID决策树

优点(chi-squared automatic interaction detection，卡方自动交互检测)，通过使用卡方统计量识别最优分割来构建决策树的分类方法

1) 可产生多分支的决策树

2) 目标和预测变量字段可以是范围字段，也可以是分类字段

3) 从统计显著性角度确定分支变量和分割值，进而优化树的分枝过程(前向修剪)

4) 建立在因果关系探讨中，依据目标变量实现对输入变量众多水平划分

4. C5.0决策树

优点：执行效率和内存使用改进、适用大数据集

1) 面对数据遗漏和输入字段很多的问题时非常稳健；

2) 通常不需要很长的训练次数进行估计；工作原理是基于产生最大信息增益的字段逐级分割样本

3) 比一些其他类型的模型易于理解，模型推出的规则有非常直观的解释；

4) 允许进行多次多于两个子组的分割。目标字段必须为分类字段

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

Neo_226 CSDN认证博客专家 CSDN认证企业博客

码龄9年

0: 原创

134万+: 周排名

76万+: 总排名

1万+: 访问

: 等级

133: 积分

4: 粉丝

0: 获赞

0: 评论

12: 收藏

私信

关注

热门文章

分类专栏

分类 2篇

最新文章

ID3和C4.5的区别

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。