《集体智慧编程》第7章 决策树建模 个人笔记

第7章 决策树建模

7.1 属性划分

本章使用CART树(分类回归树)来做分类,找到最优拆分属性和最优拆分属性值后进行划分。如何选择划分分案,通过计算数据集合的混杂程度。对于混杂程度的测度,有多种方案,这里用以下两种:

  • 基尼不纯度:将来自集合中的某种结果随机应用于集合中某一数据项的预期误差率。即
    GiniImpurity=ijipipj=1ip2i
  • 熵:代表的是集合的无序程度,即
    Entropy=ipilogpi

    熵和基尼不纯度之间的主要区别在于,熵达到峰值的过程要相对慢一些。

7.2 决策树的剪枝

本章采用的是后剪枝策略,先创建一颗完整的决策树,考察某个节点,如果将其子节点合并熵的增加量小于某个指定的阈值,则合并其子节点。

这部分可参考李航老师的《统计学习方法》,利用决策树的损失函数来剪枝,损失函数加入了树叶子节点数作为正则项。

这章我觉得写得有点简略,ID3、C4.5、CART这三者都没有介绍清楚(熵增益比都没说=。=),这块还是建议看《统计学习方法》和西瓜书吧~~

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值