三种常见的决策树:CART,C5,CHAID

决策树需要计算结点的纯度来选择最具显著性的切分(split)。通常,CART以Gini,C5以信息增益(熵),CHAID以卡方。虽然存在这样的差别,但他们树形状的不同更为重要一些。
卡方:http://wenku.baidu.com/view/7c8962eeaeaad1f346933f5f.html
C5起源于计算科学领域,讲究小样本上的重复测试比较(cross validation),进一步地,C5会进行规则(Rule Set)的概化以自动产生更为简洁的规则表达形式。牺牲一些精度来换取更好记的规则,对于业务人员来说无疑是值得的。

CART与CHAID,一个是二叉树,一个是多叉树;CART在每一个分支都选择最好的二元切分,因此一个变量(field)很可能在不同的树深处被多次使用;CHAID则一次对一个变量切分出多个统计显著的分支,会更快的生长出高预测能力的树枝,但同时在深度子结点的支持度相比CART迅速降低,更快地逼近一棵臃肿而不稳定的树。

为了避免过度拟合(over fit)而成为不稳定的树,叶结点需要裁剪(prune)。尽管CART提供了自动搜索潜在可能的树分支并根据测试集裁剪回来的策略,但事实上并不足以依赖;统计意义不是决策规则的决定因素,商业理解结合手工裁剪(custom split)可能是更好的选择。另外,少于100条数据的叶结点很可能是不稳定的,你将从测试集中发现这一点。
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值