决策树原理及实现(二)--CART算法及剪枝

本节介绍决策树中使用最多的CART方法以及剪枝,主要参考资料

在上一节我们将了ID3算法,和ID3算法的改进版C4.5算法。对于C4.5算法,我们也提到了它的不足,特别是不能处理连续数据等。而目前最常见的CART既可以做回归,也可以做分类,在skleran包中的决策树也采用此种方法。

特征选择方法

前面无论是ID3或者C4.5算法,我们都是使用的“熵”这一度量单位来选取特征。但计算熵需要大量的对数运算,有没有其他的特征选取方法呢?答案是肯定的,这里使用了统计学中的基尼系数,其基尼系数代表了模型的不纯度,基尼系数越小,则不纯度越低,特征越好。这和信息增益(比)是相反的。

假设在分类问题中有 K K 个类别,第 k 个类别的概率为 pk p k ,则基尼系数表示为:

Gini(p)=k=1KjkKpkpj=k=1Kpk(1pk)=1k=1Kp2k G i n i ( p ) = ∑ k = 1 K ∑ j ≠ k K p k p j = ∑ k = 1 K p k ( 1 − p k ) = 1 − ∑ k = 1 K p k 2

从直观上,我们可以认为基尼系数是某种属性分类错误的概率度量。

对于给定的样本 D D ,假设有 K 个类别, 第 k k 个类别的数量为 C k ,则样本 D D 的基尼系数表达式为:

  • 0
    点赞
  • 14
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值