LightGBM 如何调参

最新推荐文章于 2025-03-25 20:52:27 发布

Alice熹爱学习

最新推荐文章于 2025-03-25 20:52:27 发布

阅读量1.5w

点赞数 5

分类专栏： MachineLearning

本文链接：https://blog.csdn.net/aliceyangxi1987/article/details/80711014

版权

本文介绍了LightGBM的特性和优势，包括垂直生长的决策树策略和对大数据的高效处理。讨论了如何针对不同目标调参，并提供了与xgboost的代码比较，帮助理解两者在训练和预测上的差异。推荐在10,000+行记录的数据集上使用LightGBM以避免过拟合。" 88839567,4752549,Oracle RMAN备份：空块与数据文件大小关系,"['数据库管理', 'Oracle RMAN', '数据备份']

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

本文结构：

什么是 LightGBM
怎么调参
和 xgboost 的代码比较

1. 什么是 LightGBM

Light GBM is a gradient boosting framework that uses tree based learning algorithm.

LightGBM 垂直地生长树，即 leaf-wise，它会选择最大 delta loss 的叶子来增长。

而以往其它基于树的算法是水平地生长，即 level-wise，

当生长相同的叶子时，Leaf-wise 比 level-wise 减少更多的损失。

高速，高效处理大数据，运行时需要更低的内存，支持 GPU

不要在少量数据上使用，会过拟合，建议 10,000+ 行记录时使用。

2. 怎么调参

下面几张表为重要参数的含义和如何应用

Control Parameters	含义	用法
`max_depth`	树的最大深度	当模型过拟合时,可以考虑首先降低 `max_depth`
`min_data_in_leaf`	叶子可能具有的最小记录数	默认20，过拟合时用
`feature_fraction`	例如为0.8时，意味着在每次迭代中随机选择80％的参数来建树	boosting 为 random forest 时用
`bagging_fraction`	每次迭代时用的数据比例	用于加快训练速度和减小过拟合
`early_stopping_round`	如果一次验证数据的一个度量在最近的`early_stopping_round` 回合中没有提高，模型将停止训练	加速分析，减少过多迭代
lambda	指定正则化	0～1
`min_gain_to_split`	描述分裂的最小 gain	控制树的有用的分裂
`max_cat_group`	在 group 边界上找到分割点	当类别数量很多时，找分割点很容易过拟合时

Core Parameters	含义	用法
Task	数据的用途	选择 train 或者 predict
application	模型的用途	选择 regression: 回归时，binary: 二分类时，multiclass: 多分类时
boosting	要用的算法	gbd

最低0.47元/天解锁文章