ID3、C4.5、C5.0、CART决策树区别

最新推荐文章于 2024-01-08 17:33:02 发布

音程

最新推荐文章于 2024-01-08 17:33:02 发布

阅读量1.9k

点赞数 4

分类专栏：数据挖掘机器学习文章标签：决策树机器学习人工智能算法

原文链接：https://blog.csdn.net/E22644/article/details/87965778

版权

机器学习同时被 2 个专栏收录

59 篇文章 30 订阅

订阅专栏

3 篇文章 0 订阅

订阅专栏

ID3决策树

ID3选用使得信息增益最大的那个属性来划分样本

ID3算法缺点：

倾向于使用属性值多的属性来划分样本
不能处理具有连续值的属性。
不能处理属性具有缺失值的样本。
由于按照上面的算法会生成很深的树，所有容易产生过拟合现象。

由于上述缺点，如今没人再使用ID3，但是信息增益的概念是重要的。

C4.5算法

C4.5算法相对于ID3算法主要有以下几个改进:

用信息增益比来选择属性
在决策树的构造过程中对树进行剪枝
对非离散数据也能处理
能够处理具有缺失值的样本

C5.0算法

C5.0算法相对C4.5算法主要有以下几个改进:

速度更快
更高效的内存使用
建立的决策树更小，C5.0获得的结果与C4.5非常相似，但构建了相当小的决策树。
类似的精度：C5.0获得与C4.5类似的精度。
Boosting支持：提升可以使决策树更准确。
加权：使用C5.0，您可以加权不同的属性和错误分类类型。C5.0可以构建分类器，以最大限度地减少预期的错误分类成本而不是错误率。
风选：为了帮助降低噪音，C5.0会自动获取数据。风选是指在分类之前检查属性，忽略它找到的属性只是略微相关。

CART算法

CART(classification and regression tree)使用使得gini系数最小的那个属性来划分样本。

CART与C4.5算法是非常相似的，但是CART支持预测连续的值（即回归）。
CART构建二叉树，而C4.5则不一定。显然由于二叉树的原因使得CART5不会出现ID3的问题（倾向于选择属性值多的属性来划分样本）
CART用训练集和交叉验证集不断地评估决策树的性能来修剪决策树，从而使训练误差和测试误差达到一个很好地平衡点。

scikit-learn的实现为CART算法的最优版本，详细文档请参考：https://scikit-learn.org/stable/modules/tree.html

总结

	有很多值的属性	是否能处理缺失值	处理数据类型	是否剪枝
ID3	敏感	否	离散	否
C4.5	不敏感	是	离散、连续	是
C5.0	不敏感	是	离散、连续	是
CART	不敏感	是	离散、连续	是

参考文献

[1] https://blog.csdn.net/xlinsist/article/details/51468741
[2] https://blog.csdn.net/qq_27717921/article/details/74784400
[3] https://blog.csdn.net/gumpeng/article/details/51397737
[4] https://blog.csdn.net/leaf_zizi/article/details/83380081

原文地址：

https://blog.csdn.net/E22644/article/details/87965778

关注

4
点赞
踩
13

收藏

觉得还不错? 一键收藏
0
评论
ID3、C4.5、C5.0、CART决策树区别

ID3决策树 ID3选用使得信息增益最大的那个属性来划分样本ID3算法缺点：倾向于使用属性值多的属性来划分样本不能处理具有连续值的属性。不能处理属性具有缺失值的样本。由于按照上面的算法会生成很深的树，所有容易产生过拟合现象。 ...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。