西瓜书读书笔记

文章目录

第五章:决策树

ID3C4.5CART
思想选择信息增益最大的特征作为当前决策节点最大的特点是克服了 ID3 对特征数目的偏重这一缺点,引入信息增益率来作为分类标准。分裂、剪枝、树选择
划分标准信息增益=信息熵-条件熵,越大越好信息增益率+启发式算法(先从候选划分特征中找到信息增益高于平均值的特征,再从中选择增益率最高的)基尼系数,减少对数运算,越小越好;均方差,划分连续值属性
剪枝策略不支持采用后剪枝:用递归的方式从低往上针对每一个非叶子节点,评估用一个最佳叶子节点去代替这课子树是否有益基于代价复杂度的剪枝
缺失值处理不支持【特征选择】对于具有缺失值特征,用没有缺失的样本子集所占比重来折算;【样本划分】将样本同时划分到所有子节点,不过要调整样本的权重值,其实也就是以不同概率划分到不同节点中【特征选择】用了一种惩罚机制来抑制提升值,从而反映出缺失值的影响【样本划分】使用代理分裂器,代理就是代替缺失值特征作为划分特征的特征
连续值处理不支持支持对应的任意划分点 s 两边划分成的数据集,求出使各自集合的均方差最小,同时两个集合的均方差之和最小所对应的特征和特征值划分点
类别不平衡不支持,单纯使用父类/子类该属性内样本数最大的类别做判断同ID3使用了一种先验机制,其作用相当于对类别进行加权后划分,考虑子类在父类中的占比而非绝对数量
缺点ID3 没有剪枝策略,容易过拟合;信息增益准则对可取值数目较多的特征有所偏好,类似“编号”的特征其信息增益接近于 1;只能用于处理离散分布的特征;没有考虑缺失值。剪枝策略可以再优化;C4.5 用的是多叉树,用二叉树效率更高;C4.5 只能用于分类;C4.5 使用的熵模型拥有大量耗时的对数运算,连续值还有排序运算;C4.5 在构造树的过程中,对数值属性值需要按照其大小进行排序,从中选择一个分割点,所以只适合于能够驻留于内存的数据集,当训练集大得无法在内存容纳时,程序无法运行。单变量决策(多变量决策树有OC1),容易受样本变化扰动(用随机森林)

参考文献:
比较三种决策树:https://zhuanlan.zhihu.com/p/85731206
CART对比理解:https://blog.csdn.net/xiongchengluo1129/article/details/78485306

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值