XGBoost 模型参数调整记录

老赵的博客

已于 2023-10-07 09:59:40 修改

阅读量1.8k

点赞数 3

分类专栏： python 文章标签： python 机器学习

于 2023-03-08 17:43:25 首次发布

本文链接：https://blog.csdn.net/sinat_20962951/article/details/129407783

版权

python 专栏收录该内容

9 篇文章 0 订阅

订阅专栏

目录

前言

总结

前言

最近使用XGBoos模型来预测或者分类物质，其中参数优化是非常重要的一步，本文就简单记录下入门心得

首先，XGBoost是属于决策树模型，原理是不断建树，最后将所有树结果加到一起。一般的调参顺序：n_estimator_nums；再调整剪枝参数(gamma,max_depth),最后列采样col、样本采样sub，eta(从大到小调整) 。主要思路：先使用默认参数调整，观察曲线，判断欠拟合 or 过拟合？调整对应参数。

1. eta：

学习率参数，就是原理中说的缩减，保证每一颗树对于结果的影响不太大，从而保证模型的效果。更新叶子节点权重时，乘以该系数，避免步长过大。参数值越大，越可能无法收敛。把学习率 eta 设置的小一些，小学习率可以使得后面的学习更加仔细。典型值为0.01-0.2。该值一般影响训练速度，不会影响学习效果，一般有n_estimator一起网格调整

Tong He（XGBoost R语言版本开发者）：三个最重要的参数为：树的数目、树的深度和学习率。建议参数调整策略为：采用默认参数配置试试；如果系统过拟合了，降低学习率；如果系统欠拟合，加大学习率

2. min_child_weight：

默认1，这参数限制每棵树权重改变的最大步长。如果这个参数的值为0，那就意味着没有约束。如果它被赋予了某个正值，那么它会让这个算法更加保守（下链接中提到，树停止生长的条件，其中min_child_weight,是最小样本权重和，当引入一次分裂后，重新计算新生成的左、右两个叶子结点的样本权重和，如果任一个叶子结点的样本权重低于某一个阈值，也会放弃此次分裂。这涉及到一个超参数:最小样本权重和，是指如果一个叶子节点包含的样本数量太少也会放弃分裂，防止树分的太细。）