XGBoost 重要关键参数及调优步骤

最新推荐文章于 2024-06-07 23:27:28 发布

lizz2276

最新推荐文章于 2024-06-07 23:27:28 发布

阅读量1.4k

点赞数

原文链接：https://baijiahao.baidu.com/s?id=1613550753243799306&wfr=spider&for=pc

版权

本篇对XGBoost主要参数进行解释，方括号内是对应scikit-learn中XGBoost算法模块的叫法。

提升参数

虽然有两种类型的booster，但是我们这里只介绍tree。因为tree的性能比线性回归好得多，因此我们很少用线性回归。

eta [default=0.3, alias: learning_rate]

学习率，可以缩减每一步的权重值，使得模型更加健壮：典型值一般设置为：0.01-0.2

min_child_weight [default=1]

一个子集的所有观察值的最小权重和。如果新分裂的节点的样本权重和小于min_child_weight则停止分裂。这个可以用来减少过拟合，但是也不能太高，会导致欠拟合。

max_depth [default=6]

树的最大深度，值越大，树越大，模型越复杂可以用来防止过拟合，典型值是3-10。

gamma [default=0, alias: min_split_loss]

分裂节点时，损失函数减小值只有大于等于gamma节点才分裂，gamma值越大，算法越保守，越不容易过拟合，但性能就不一定能保证，需要平衡。

subsample [default=1]

构建每棵树对样本的采样率，如果设置成0.5，XGBoost会随机选择一半的样本作为训练集。

colsample_bytree [default=1]

列采样率，也就是特征采样率。

colsample_bylevel [default=1]

构建每一层时，列采样率。

lambda [default=1, alias: reg_lambda]

L2正则化，这个参数是用来控制XGBoost的正则化部分的。虽然大部分数据科学家很少用到这个参数，但是这个参数在减少过拟合上还是可以挖掘出更多用处的。

alpha [default=0, alias: reg_alpha]

L1正则化，增加该值会让模型更加收敛

scale_pos_weight, [default=1]

在类别高度不平衡的情况下，将参数设置大于0，可以加快收敛。

学习目标参数：

这个参数用来控制理想的优化目标和每一步结果的度量方法。

1、objective[默认reg:linear]

这个参数定义需要被最小化的损失函数。常用的值有：

· reg:linear：线性回归

· reg:logistic：逻辑回归

· binary:logistic 二分类的逻辑回归，返回预测的概率

· binary:logitraw：二分类逻辑回归，输出是逻辑为0/1的前一步的分数

· multi:softmax：用于Xgboost 做多分类问题，需要设置num_class（分类的个数）

· multi:softprob：和softmax一样，但是返回的是每个数据属于各个类别的概率。

· rank:pairwise：让Xgboost 做排名任务，通过最小化(Learn to rank的一种方法)

2、eval_metric（默认值取决于objective参数的取值）

· 对于有效数据的度量方法。

· 对于回归问题，默认值是rmse，对于分类问题，默认值是error。

· 典型值有：

rmse 均方根误差

mae 平均绝对误差

logloss 负对数似然函数值

error 二分类错误率(阈值为0.5)

merror 多分类错误率

mlogloss 多分类logloss损失函数

auc 曲线下面积

参数调优的一般步骤

确定学习速率和提升参数调优的初始值
max_depth 和 min_child_weight 参数调优
gamma参数调优
subsample 和 colsample_bytree 参数优
正则化参数alpha调优
降低学习速率和使用更多的决策树

lizz2276

关注

0
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
XGBoost 重要关键参数及调优步骤

本篇对XGBoost主要参数进行解释，方括号内是对应scikit-learn中XGBoost算法模块的叫法。提升参数虽然有两种类型的booster，但是我们这里只介绍tree。因为tree的性能比线性回归好得多，因此我们很少用线性回归。eta [default=0.3, alias: learning_rate]学习率，可以缩减每一步的权重值，使得模型更加健壮：典型值一般设置为：0....
复制链接

扫一扫