机器学习算法总结之XGBoost（下）实战与调参

最新推荐文章于 2025-03-04 14:00:00 发布

kaiyuan_sjtu

最新推荐文章于 2025-03-04 14:00:00 发布

阅读量1.3k

点赞数

分类专栏： ML算法总结文章标签： XGBoost

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Kaiyuan_sjtu/article/details/80018580

版权

ML算法总结专栏收录该内容

28 篇文章

订阅专栏

本文全面解析XGBoost算法参数，包括通用参数、Booster参数及学习目标参数，结合Titanic数据集实战调参，助力提升模型表现。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

写在前面

XGBoost原理已在前一篇有过说明：机器学习算法总结之XGBoost（上）

本文思路与之前一篇GBDT调参（基于scikit-learn的梯度提升树GBDT调参学习）思路相同，先遍历xgboost算法所有参数，明白其意思之后开始实战调参，数据集我还是打算选择Kaggle上的Titanic: Machine Learning from Disaster，保持工作一致性。

参考资料：XGBoost参数官方文档

Complete Guide to Parameter Tuning in XGBoost (with codes in Python)

XGBoost参数调优完全指南（附Python代码）（上面的翻译版本）

1. XGBoost模型概述

XGBoost的作者把所有的参数分成了三类：

1、通用参数：宏观函数控制。

2、Booster参数：控制每一步的booster(tree/regression)。

3、学习目标参数：控制训练目标的表现。

2. XGBoost通用参数

（1）booster（默认gbtree）：

选择每次迭代的模型，有两种选择：gbtree（基于树的模型）和gbliner（线性模型）

（2）silent（默认0）：

当这个参数值为1时，静默模式开启，不会输出任何信息。

一般这个参数就保持默认的0，因为这样能帮我们更好地理解模型。

（3）nthread（默认为最大可能的线程数）：

这个参数用来进行多线程控制，应当输入系统的核数。

如果你希望使用CPU全部的核，那就不要输入这个参数，算法会自动检测它。

此外还有两个参数num_pbuffer和num_feature，由xgboost自动设置，用户不用管。

3.Booster参数

前面提及有两种booster可选，但是实践表明tree的模型效果更好，linear很少用到。

（1）eta（默认0.3）：

和GBDT中的 learning rate 参数类似。通过减少每一步的权重，可以提高模型的鲁棒性。

典型值为0.01-0.2。

（2）min_child_weight（默认1）：

决定最小叶子节点样本权重和。和GBDT的 min_child_leaf 参数类似，但不完全一样。

XGBoost的这个参数是最小样本权重的和，而GBDT参数是最小样本总数。

这个参数用于避免过拟合。当它的值较大时，可以避免模型学习到局部的特殊样本。

但是如果这个值过高,会导致欠拟合。这个参数需要使用CV来调整。

（3）max_depth（默认6）：

和GBM中的参数相同，这个值为树的最大深度。

这个值也是用来避免过拟合的。max_depth越大，模型会学到更具体更局部的样本。

需要使用CV函数来进行调优。

典型值：3-10

（4）max_leaf_nodes：

树上最大的节点或叶子的数量。

可以替代max_depth的作用。因为如果生成的是二叉树，一个深度为n的树最多生成n方个叶子。

如果定义了这个参数，GBM会忽略max_depth参数。

（5）gamma（默认0）：

在节点分裂时，只有分裂后损失函数的值下降了，才会分裂这个节点。

Gamma指定了节点分裂所需的最小损失函数下降值。

这个参数的值越大，算法越保守。这个参数的值和损失函数息息相关，所以是需要调整的

（6）max_delta_step（默认0）：

这参数限制每棵树权重改变的最大步长。

如果这个参数的值为0，那就意味着没有约束。如果它被赋予了某个正值，那么它会让这个算法更加保守。

通常，这个参数不需要设置。但是当各类别的样本十分不平衡时，它对逻辑回归是很有帮助的。

这个参数一般用不到，但是你可以挖掘出来它更多的用处。

（7）subsample（默认1）：

和GBM中的subsample参数一模一样。这个参数控制对于每棵树，随机采样的比例。

减小这个参数的值，算法会更加保守，避免过拟合。但是，如果这个值设置得过小，它可能会导致欠拟合。

典型值：0.5-1

（8）colsample_bylevel（默认1）：

用来控制树的每一级的每一次分裂，对列数的采样的占比。

典型值：0.5-1

（9）colsample_bytree（默认1）：

和GBM里面的max_features参数类似。用来控制每棵随机采样的列数的占比(每一列是一个特征)

典型值：0.5-1

（10）lambda（默认1）：

权重的L2正则化项。(和Ridge regression类似)。

这个参数是用来控制XGBoost的正则化部分的，增大这个值会使得模型更为保守

（11）alpha（默认0）：

权重的L1正则化项。(和Lasso regression类似)，增大这个值会使得模型更为保守

可以应用在很高维度的情况下，使得算法的速度更快。

（12）scale_pos_weight（默认1）：

在各类别样本十分不平衡时，把这个参数设定为一个正值，可以使算法更快收敛。

4.学习目标参数

（1）objective（默认reg：linear）：

        这个参数定义需要被最小化的损失函数。最常用的值有：
            binary:logistic 二分类的逻辑回归，返回预测的概率(不是类别)。
            multi:softmax 使用softmax的多分类器，返回预测的类别(不是概率)。
                在这种情况下，你还需要多设一个参数：num_class(类别数目)。
           multi:softprob 和multi:softmax参数一样，但是返回的是每个数据属于各个类别的概率。

（2）eval_metric（默认值取决于objective参数的取值）：

        对于有效数据的度量方法。
        对于回归问题，默认值是rmse，对于分类问题，默认值是error。
      典型值有：
            rmse 均方根误差
            mae 平均绝对误差
            logloss 负对数似然函数值
            error 二分类错误率(阈值为0.5)
            merror 多分类错误率
            mlogloss 多分类logloss损失函数
            auc 曲线下面积

（3）seed（默认0）：

随机数种子。设置它可以复现随机数据的结果，也可以用于调整参数

5.XGBoost调参实例

给出官方code样例：XGBoost Demo Codes (xgboost GitHub repository)

接下来继续接着上次GBDT的数据集调参，希望能在前一次尝试上得分更高。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。