基于决策树的分类回归（随机森林，xgboost, gbdt)

最新推荐文章于 2025-06-15 15:47:37 发布

亓了个葩

最新推荐文章于 2025-06-15 15:47:37 发布

阅读量1w

点赞数 3

CC 4.0 BY-SA版权

分类专栏：机器学习文章标签： xgboost boosting 决策树随机森林

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/skyonefly/article/details/75027792

本文梳理了决策树的特征选择、生成和修剪过程，解释了随机森林的构建原理，以及gbdt与xgboost的区别，强调了xgboost的并行计算特性及其优化策略。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

最近找工作，因为觉得以前做过比赛, 觉得自己听懂xgboost，随机森林的, 今天同实验室的一个小姐姐问了我几个问题，才发现一团乱麻，连最基本的都不懂，所以整理了一下思路。这里不重点讲定义，主要说明关系。

决策树

决策树生成包含三个步骤: 特征选择 ——> 决策树生成——> 决策树修剪:

特征选择：理解: 根据某些规则选取使决策树性能最好的特征
1.1 信息熵
1.2 信息增益（缺点：偏向于选取值较多的特征）
1.3 信息增益比（基于信息增益的改进，克服了了上述信息增益的缺点）
决策树生成：
2.1 ID3:在各个节点应用信息增益准测选择特征，递归构建决策树
2.2 C4.5:在ID3的基础上进行了改进，其实就是使用了信息增益比准则进行特征选择，其余不变
决策树剪枝：防止过拟合
3.1 生成树建好后，通过最小化loss function 去掉可以说使性能变差或无用的

因为决策树生成是一步一步的，决策树生成是学习局部模型，而剪枝是在整个生成树的基础上最小化loss function，所以剪枝是学习全局模型。

随机森林

随机森林是由多个决策树构成(M个），每个决策树单独对数据进行预测，最终结果取这M个决策树中类别最多的那一类。不同分类器是相互独立的。
在随机森林中，对每个决策树，加入了两个随机特征：

随机选择样本：对于N个样本的训练集，采取有放回抽样， boostraping N个样本，这样可以保证
M个决策树的样本不同，防止over-fitting.
对特征进行采样

gbdt vs xgboost.

首先这两个

最低0.47元/天解锁文章

200万优质内容无限畅学

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。