决策树算法之CART算法---笔记

  1. CART算法是决策树的一种方法之一,其同样有如下流程:决策树的特征的选择,决策树的生成,决策树的剪枝。决策树的生成可以看成是一种局部最优,而决策树剪枝是全局最优的求解。其中决策树的剪枝也是用熵的模型,不过用的是经验熵,但是搞懂了熵就差不多懂决策树剪枝,里面根据节点的熵的大小进行比较。熵比较下的叶子节点会被剪去,也就是树的回缩,减少模型的复杂度,防止过度拟合。

  2. 理想的决策树有三种: (1)叶子结点数最少; (2)叶子结点深度最小; (3)叶子结点数最少且叶子结点深度最小。然而, 洪家荣等人已经证明了要找到这种最优的决策树是NP难题。 因此, 决策树优化的目的就是要找到尽可能趋向于最优的决策树(来自袁春老师的课件)。

  3. 决策树面临的问题:
    (1)过度拟合。决策树算法增长树的每一个分支的深度, 直到恰好能对训练样例比较完美地分类。 实际应用中, 当数据中有噪声或训练样例的数量太少以至于不能产生目标函数的有代表性的采样时, 该策略可能会遇到困难。通常应该建立一个验证过程, 在训练最终完成后用来检测训练结果的泛化能力。
    (2)决策树算法比较适合处理离散数值的属性。 实际应用中属性是连续的或者离散的情况都比较常见。在应用连续属性值时, 在一个树结点可以将属性Ai的值划分为几个区间。 然后信息增益的计算就可以采用和离散值处理一样的方法。 原则上可以将Ai的属性划分为任意数目的空间。 C4.5中采用的是二元分割( BinarySplit)。需要找出一个合适的分割阈值。

  4. 目标变量是类别的 — 分类树;目标变量是连续的 — 回归树。

  5. CART与ID3的不同:
    (1)二元划分:二叉树不易产生数据碎片, 精确度往往也会高于多叉树。
    (2)CART中选择变量的不纯性度量:分类目标: Gini指标、 Towing、 order Towing;连续目标: 最小平方残差、 最小绝对残差。
    (3)剪枝:用预剪枝或后剪枝对训练集生长的树进行剪枝。
    (4)树的建立:如果目标变量是标称的, 并且是具有两个以上的类别, 则CART可能考虑将目标类别合并成两个超类别( 双化) ;如果目标变量是连续的, 则CART算法找出一组基于树的回归方程来预测目标变量。

  6. CART算法的分类:(1)回归树: 平方误差最小化;(2)分类树: Gini Index。

注:本文的内容只是自己学习过程的一个总结,根据自己的学习感悟进行总结,以便自己日后好复习巩固,如有不对之处,敬请谅解,感谢李航老师的书籍和袁春老师的课件,让我学习到很多知识。

参考文献:

  1. 统计学习方法 [M]. 李航,
  2. 统计学习方法课件,袁春.
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值