XGboost模型知识点总结（下）

最新推荐文章于 2023-05-12 21:44:21 发布

julyedu_7

最新推荐文章于 2023-05-12 21:44:21 发布

阅读量860

点赞数

分类专栏：最新名企AI面试题文章标签：算法深度学习 transformer 人工智能机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/julyedu_7/article/details/124015874

版权

本文深入探讨了XGBoost模型的选择最佳分裂点策略，包括特征并行和直方图近似算法，以提高计算效率。此外，介绍了评价特征重要性的三种方式：weight、gain和cover。接着对比了XGBoost与GBDT、XGBoost与LightGBM的区别，以及应对过拟合的参数调整方法，如max_depth、min_child_weight和subsample等。最后，提到了大厂AI面试的相关资源。

摘要由CSDN通过智能技术生成

问题6：XGBoost如何选择最佳分裂点？

XGBoost在训练前预先将特征按照特征值进行了排序，并存储为block结构，以后在结点分裂时可以重复使用该结构。

因此，可以采用特征并行的方法利用多个线程分别计算每个特征的最佳分割点，根据每次分裂后产生的增益，最终选择增益最大的那个特征的特征值作为最佳分裂点。

如果在计算每个特征的最佳分割点时，对每个样本都进行遍历，计算复杂度会很大，这种全局扫描的方法并不适用大数据的场景。XGBoost还提供了一种直方图近似算法，对特征排序后仅选择常数个候选分裂位置作为候选分裂点，极大提升了结点分裂时的计算效率。

问题7：XGBoost如何评价特征的重要性

采用三种方法来评判XGBoost模型中特征的重要程度：

weight ：该特征在所有树中被用作分割样本的特征的总次数。

gain ：该特征在其出现过的所有树中产生的平均增益。

cover ：该特征在其出现过的所有树中的平均覆盖范围。

注意：覆盖范围这里指的是一个特征用作分割点后，其影响的样本数量，即有多少样本经过该特征分割到两个子节点。

问题8：GBDT与Xgboost的区别

传统的GBDT以CART树作为基学习器，XGBoost还支持线性分类器，这个时候XGBoost相当于L1和L2正则化的逻辑斯蒂回归（分类）或者线性回归（回归）；

传统的GBDT在优化的时候只用到一阶导数信息，XGBoost则对代价函数进行

最低0.47元/天解锁文章

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
XGboost模型知识点总结（下）

问题6：XGBoost如何选择最佳分裂点？XGBoost在训练前预先将特征按照特征值进行了排序，并存储为block结构，以后在结点分裂时可以重复使用该结构。因此，可以采用特征并行的方法利用多个线程分别计算每个特征的最佳分割点，根据每次分裂后产生的增益，最终选择增益最大的那个特征的特征值作为最佳分裂点。如果在计算每个特征的最佳分割点时，对每个样本都进行遍历，计算复杂度会很大，这种全局扫描的方法并不适用大数据的场景。XGBoost还提供了一种直方图近似算法，对特征排序后仅选择常数个候选分裂位置作为候
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。