西瓜书读书笔记

最新推荐文章于 2022-09-13 20:19:02 发布

静谧的苍之戟

最新推荐文章于 2022-09-13 20:19:02 发布

阅读量287

点赞数

文章标签：机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_37377943/article/details/125472635

版权

文章目录

第五章：决策树

第五章：决策树

	ID3	C4.5	CART
思想	选择信息增益最大的特征作为当前决策节点	最大的特点是克服了 ID3 对特征数目的偏重这一缺点，引入信息增益率来作为分类标准。	分裂、剪枝、树选择
划分标准	信息增益=信息熵-条件熵，越大越好	信息增益率+启发式算法（先从候选划分特征中找到信息增益高于平均值的特征，再从中选择增益率最高的）	基尼系数，减少对数运算，越小越好；均方差，划分连续值属性
剪枝策略	不支持	采用后剪枝：用递归的方式从低往上针对每一个非叶子节点，评估用一个最佳叶子节点去代替这课子树是否有益	基于代价复杂度的剪枝
缺失值处理	不支持	【特征选择】对于具有缺失值特征，用没有缺失的样本子集所占比重来折算；【样本划分】将样本同时划分到所有子节点，不过要调整样本的权重值，其实也就是以不同概率划分到不同节点中	【特征选择】用了一种惩罚机制来抑制提升值，从而反映出缺失值的影响【样本划分】使用代理分裂器，代理就是代替缺失值特征作为划分特征的特征
连续值处理	不支持	支持	对应的任意划分点 s 两边划分成的数据集，求出使各自集合的均方差最小，同时两个集合的均方差之和最小所对应的特征和特征值划分点
类别不平衡	不支持，单纯使用父类/子类该属性内样本数最大的类别做判断	同ID3	使用了一种先验机制，其作用相当于对类别进行加权后划分，考虑子类在父类中的占比而非绝对数量
缺点	ID3 没有剪枝策略，容易过拟合；信息增益准则对可取值数目较多的特征有所偏好，类似“编号”的特征其信息增益接近于 1；只能用于处理离散分布的特征；没有考虑缺失值。	剪枝策略可以再优化；C4.5 用的是多叉树，用二叉树效率更高；C4.5 只能用于分类；C4.5 使用的熵模型拥有大量耗时的对数运算，连续值还有排序运算；C4.5 在构造树的过程中，对数值属性值需要按照其大小进行排序，从中选择一个分割点，所以只适合于能够驻留于内存的数据集，当训练集大得无法在内存容纳时，程序无法运行。	单变量决策（多变量决策树有OC1），容易受样本变化扰动（用随机森林）

参考文献：
比较三种决策树：https://zhuanlan.zhihu.com/p/85731206
CART对比理解：https://blog.csdn.net/xiongchengluo1129/article/details/78485306

静谧的苍之戟

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

静谧的苍之戟 CSDN认证博客专家 CSDN认证企业博客

码龄8年

2: 原创

152万+: 周排名

198万+: 总排名

398: 访问

: 等级

23: 积分

0: 粉丝

0: 获赞

0: 评论

0: 收藏

私信

关注

热门文章

最新文章

leetcode刷题日记

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。