集成学习-树模型

坠金

已于 2024-11-04 10:40:02 修改

阅读量365

点赞数

分类专栏：八股技术面算法机器学习文章标签：集成学习机器学习算法

于 2023-09-11 09:22:17 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_41413211/article/details/132799167

版权

技术面算法同时被 3 个专栏收录

71 篇文章 1 订阅 ¥9.90 ¥99.00

订阅专栏

30 篇文章 9 订阅 ¥15.90 ¥99.00

订阅专栏

24 篇文章 2 订阅 ¥9.90 ¥99.00

订阅专栏

本文详细介绍了集成学习中的树模型，包括ID3、C4.5和CART的基本树，以及随机森林、AdaBoost、GBDT、XGBoost和LightGBM等集成方法。讨论了各种算法的选择特征准则、优缺点以及集成学习框架的区别和作用，如Bagging（随机森林）降低方差，Boosting（如AdaBoost和GBDT）降低偏差。

摘要由CSDN通过智能技术生成

可以分为三部分学习树模型：

基本树（包括 ID3、C4.5、CART）.
Random Forest、Adaboost、GBDT
Xgboost 和 LightGBM。

基本树

选择特征的准则

ID3：信息增益max

C4.5：信息增益比max

CART：基尼指数min

优缺点

ID3

核心思想是奥卡姆剃刀（决策树小优于大）

缺点：

ID3 没有剪枝策略，容易过拟合；
信息增益准则对可取值数目较多的特征有所偏好，类似“编号”的特征其信息增益接近于 1；
只能用于处理离散分布的特征；
没有考虑缺失值。

C4.5

有剪枝策略。最大的特点是克服了 ID3 对特征数目的偏重这一缺点，引入信息增益率来作为分类标准。

缺点：

C4.5 只能用于分类；
C4.5 使用的熵模型拥有大量耗时的对数运算，连续值还有排序运算；
C4.5 在构造树的过程中，对数值属性值需要按照其大小进行排序，从中选择一个分割点，所以只适合于能够驻留于内存的数据集，当训练集大得无法在

了解本专栏

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

坠金 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。