[机器学习] XGBoost和传统GBDT的区别

最新推荐文章于 2022-05-18 16:06:42 发布

手撕机

最新推荐文章于 2022-05-18 16:06:42 发布

阅读量1k

点赞数

分类专栏：机器学习文章标签：机器学习

原创文章，未经授权请勿转载。

本文链接：https://blog.csdn.net/guolindonggld/article/details/120147544

版权

机器学习专栏收录该内容

5 篇文章

订阅专栏

XGBoost是GBDT的一种高效实现，它引入了二阶泰勒展开损失函数、自定义可导损失函数、更多正则项、缺失值处理、列抽样和多种树构建方法等优化。相比传统GBDT，XGBoost允许处理缺失值，支持列抽样以减少过拟合，并提供更高效的树构建策略，如直方图方法。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

XGBoost（eXtreme Gradient Boosting）是GBDT方法的一种高效、灵活、便携的工程化实现。

注意，XGBoost不是一种算法的名称，而是同属于GBDT框架下，一种Boosting的思想。另外，随着代码版本的迭代，很多新特性也被借鉴进来，比如LightGBM中的直方图方法，在2017年就被加入到了XGBoost中。

相比传统的GBDT实现，XGBoost（以版本1.4.2为例）区别有以下几点：

1、XGBoost损失函数使用二阶泰勒展开作为近似。

2、支持自定义损失函数，需要函数一阶和二阶可导。

3、加入了更多的正则项，比如除了叶子节点权重的 L2 范式，还有树的叶子节点个数。

4、缺失值处理。

5、列抽样。

6、更多的树方法（Tree Method），传统的GBDT在选择树的分割点时，通常是遍历每个特征的每种取值，XGBoost支持更多的树方法，除了传统GBDT的精确（exact）方法，还增加了近似（approx）和直方图（hist）方法。

下面详细说说这些区别。

缺失值处理

在scikit-learn 0.24.2本身实现的GBDT，如果特征存在缺失值，模型训练时会报错。

列抽样

博客等级

码龄13年

人工智能领域新星创作者

135
原创

879
点赞

3813
收藏

2万+
粉丝

关注

私信

热门文章

分类专栏

Spark 5篇
TensorFlow 2.0 2篇
TensorFlow 1.0 11篇
Linux 1篇
CentOS 1篇
Keras 1篇
Python 1篇
PyQt5 4篇
Java
推荐系统 4篇
评价指标 2篇
深度学习 1篇
PMML 1篇
基础算法 1篇
GraphX 1篇
运筹 1篇
机器学习 5篇
Hive 1篇
C++
计算机网络
笔记 33篇

最新评论

[高效Mac] 多显示器快速切换鼠标焦点和移动窗口
加油上岸: 谢谢
使用GIZA++进行词对齐
zyxgmlzsj: 对于 list index out of range 错误，提出一种“不靠谱”的解决方案，当出现该错误时，查看grow-diag-final-and文件中生成数据的行数可以确定出现问题的位置。在z2e.A3.final和e2z.A3.final文件中用ctrl+f查找，输入“pair (此处填入grow-diag-final-and中行数+1)”，看下面的英文句子和中文句子是否与en.txt和zh.txt中的句子一样，如果不一样，修改成一样的就可以了
使用GIZA++进行词对齐
zyxgmlzsj: 我的也是list index out of range
搜索推荐评价指标Precision@k、Recall@k、F1@k、NDCG@k
m0_57914665: 在信息检索和推荐系统中，`TP@k`（True Positives @ k）和`FN@k`（False Negatives @ k）是评估推荐系统性能时使用的术语，特别是在二分类或多分类任务中。它们分别代表在前k个推荐结果中真正的正例数量（真正相关或用户真正感兴趣的项目数量）和未被推荐但实际相关的项目数量。 - **TP@k (True Positives @ k)**: 在推荐系统的前k个推荐结果中，实际被正确推荐的相关项目的数量。这些是系统正确识别并推荐给用户的项目。 - **FN@k (False Negatives @ k)**: 在推荐系统的前k个推荐结果之外，但实际上相关的项目数量。这些是系统未能推荐给用户的相关项目。 ### 示例假设在一个推荐系统中，我们有一个用户的测试集包含10部相关电影（用户会喜欢的电影）。系统推荐了10部电影作为推荐列表（k=10）。 - 如果在这10部推荐电影中有7部确实是用户会喜欢的，那么 `TP@10` 就是7。 - 假设测试集中还有3部相关电影没有被推荐，那么 `FN@10` 就是3。 ### 公式 - **TP@k**: \[ \text{TP@k} = \sum_{i=1}^{k} \mathbf{1}_{\{\text{第 } i \text{ 个推荐项目是相关的}\}} \] 这里 \(\mathbf{1}_{\{\cdot\}}\) 是指示函数，如果条件满足则为1，否则为0。 - **FN@k**: \[ \text{FN@k} = \sum_{\text{所有相关项目}} \mathbf{1}_{\{\text{项目不在前 } k \text{ 个推荐中的}\}} \] ### 使用场景 - **TP@k** 被用于计算精确率 (`Precision@k`) 和 F1 分数 (`F1@k`)。 - **FN@k** 被用于计算召回率 (`Recall@k`) 和 F1 分数。通过计算 TP@k 和 FN@k，我们可以进一步分析推荐系统的性能，并据此调整推荐算法以优化用户体验。
[TensorFlow笔记] 获取Tensor的维度（tf.shape(x)、x.shape和x.get_shape()的区别）
书店莫得: 解决问题，感谢博主分享，写的很清晰明了。赞

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

手撕机 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。