一周前开始接触Lightgbm,关于它的原理和主要思想很多地方都有,这里就不再赘述。这篇博文是我在参加天池数据挖掘比赛时的Lightgbm调参经验总结,希望对后续的工作有帮助。
1. 数据特征选择
除了数据集中的基本数据特征外,很多时候还需要从基本数据特征中通过统计或组合获得新的特征,这时候获得的新特征与原来的基本数据特征之间存在着相关性。新特征可能作为基本特征的补充更好地划分数据集,可能与原特征划分数据集的能力差不多,也可能较原特征的划分能力强,这时候我们应该根据实验结果考虑是否选择特征。
当新特征可以作为原特征的补充更好地划分数据集时,这个特征是应该保留的。其他情况则需要进行进一步的实验才能确定。
2. Lightgbm参数设置
Lightgbm是基于决策树的分布式梯度提升框架,以选取最大信息增益作为特征选择的目标。
它最主要的参数有:
objective='binary' #目标为二分类
num_leaves = 16 # 决策树叶子节点数
(Lightgbm用决策树叶子节点数来确定树的复杂度,而XGboost用max_depth确定树的复杂度)
num_threads