本文结构:
- 什么是 LightGBM
- 怎么调参
- 和 xgboost 的代码比较
1. 什么是 LightGBM
Light GBM is a gradient boosting framework that uses tree based learning algorithm.
LightGBM 垂直地生长树,即 leaf-wise,它会选择最大 delta loss 的叶子来增长。
而以往其它基于树的算法是水平地生长,即 level-wise,
当生长相同的叶子时,Leaf-wise 比 level-wise 减少更多的损失。
高速,高效处理大数据,运行时需要更低的内存,支持 GPU
不要在少量数据上使用,会过拟合,建议 10,000+ 行记录时使用。
2. 怎么调参
下面几张表为重要参数的含义和如何应用
Control Parameters | 含义 | 用法 |
---|---|---|
max_depth |
树的最大深度 | 当模型过拟合时,可以考虑首先降低 max_depth |
min_data_in_leaf |
叶子可能具有的最小记录数 | 默认20,过拟合时用 |
feature_fraction |
例如 为0.8时,意味着在每次迭代中随机选择80%的参数来建树 | boosting 为 random forest 时用 |
bagging_fraction |
每次迭代时用的数据比例 | 用于加快训练速度和减小过拟合 |
early_stopping_round |
如果一次验证数据的一个度量在最近的early_stopping_round 回合中没有提高,模型将停止训练 |
加速分析,减少过多迭代 |
lambda | 指定正则化 | 0~1 |
min_gain_to_split |
描述分裂的最小 gain | 控制树的有用的分裂 |
max_cat_group |
在 group 边界上找到分割点 | 当类别数量很多时,找分割点很容易过拟合时 |
Core Parameters | 含义 | 用法 |
---|---|---|
Task | 数据的用途 | 选择 train 或者 predict |
application | 模型的用途 | 选择 regression: 回归时,binary: 二分类时,multiclass: 多分类时 |
boosting | 要用的算法 | gbd |