决策树

最新推荐文章于 2024-08-27 17:27:28 发布

Jemila

最新推荐文章于 2024-08-27 17:27:28 发布

阅读量1.6k

点赞数

分类专栏： Machine Learning 文章标签：机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/jemila/article/details/52424652

版权

本文介绍了决策树在回归和分类中的应用，详细讲解了信息增益、信息增益率和基尼系数的概念，并探讨了ID3、C4.5和CART算法的优缺点。此外，还讨论了防止过拟合的方法、连续变量的阈值选择、缺失值处理策略以及随机森林等相关知识。

摘要由CSDN通过智能技术生成

最近在网络课上报了一门《机器学习》的课，由于数据挖掘的缘故有不少的接触，真正入门才发现坑点不少，也许总结得还不够深，后面会再慢慢补充。

一、回归树和决策树

决策树可以用来实现回归和分类，用作回归时，则称为回归树；用作决策时，则称为分类树或者决策树。

分类树的观测值是离散的，回归树的观测值必须是数值或者是连续的。

普通回归和回归树是有区别的，回归树拟合出来的曲线不平滑，即两个测试样本互相靠近，在一个小的区间内取到相同的值。普通回归却拟合出来的曲线是平滑的。

二、信息增益、信息增益率和基尼系数

ID3：信息增益是衡量该特征A使得数据集D结果不确定性的下降程度，信息增益越大越好，倾向于多值属性。

C4.5：信息增益率是衡量该特征A下信息分布的均度和广度。信息增益率倾向于少值属性而且分布不均。

CART：基尼系数是熵公式下的一阶展开，衡量的是特征A的不纯度，基尼系数越小越好，基尼的不纯度相当于熵所对应的混乱程度。

三、ID3\C4.5\CART的缺点

ID3

ID3算法使用的是自顶向下的贪婪搜索遍历可能的决策树空间构造，属于局部最优，不一定全局最优。

1、用信息增益选择属性时偏向于选择分枝比较多的属性值，即取值多的属性，容易过拟合

2、抗噪性差

3、递归循环，消耗内存

4、只能处理离散数据

C4.5

1、递归循环，消耗内存

此外，C4.5只适合于能够驻留于内存的数据集，当训练集大得无法在内存容纳时程序无法运行

CART

1、不如线性回归普遍；要求大量训练数

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。