lightgbm原理和调参参考资料汇总

本文介绍了LightGBM的主要特点,包括Gradient-based One-Side Sampling (GOSS)、Exclusive Feature Bundling (EFB)、Histogram-based Algorithm和Leaf-wise的树生长策略,以及如何通过调整num_leaves、is_unbalance、bagging参数等进行调参。提供了LightGBM的中文文档链接和调参资源。
摘要由CSDN通过智能技术生成

Lightgbm

总的来说,看完论文Lightgbm提高速度主要就是‘压缩数据的数量和维度’,降低训练数据的量,其中goss降低了数据数量,efb降低了数据的维度,基于Histogram的算法加快了扫描数据的速度,基于leaf-wise的树的生成,在同等所有节点上找到信息增益最大的进行分裂,对于一些 信息增益小的节点就不分裂,这样做减少开销。

Lightgbm 的四个特点:

一、 Gradient-based One-Side Sampling

GOSS是一个样本实例的采样算法,目的是丢弃一些对计算信息增益没有帮助的实例留下有帮助的。首先来了解一下信息增益)。可以看到具有较大梯度的数据对计算信息增益的贡献比较大【坑1】(参考论文Greedy Function Approximation: A Gradient Boosting Machine的证明),因此GOSS在进行数据采样的时候只保留了梯度较大的数据,但是如果直接将所有梯度较小的数据都丢弃掉势必会影响数据的总体分布,因此GOSS首先将要进行分裂的特征的所有取值按照绝对值大小降序排序(XGB一样也进行了排序,但是lgb不用保存排序后的结果),选取绝对值最大的a*100%个数据,然后在剩下的教小梯度数据中随机选择b*100%个数据,并且将这b%个数据乘以一个常数 (1-a)/b%,最后使用这(a+b)%个数据来计算信息增益。下图是GOSS的具体算法

从以上算法看,在d次迭代中lightGBM只使用了useSet实例进行训练,每一轮迭代都学习了一个弱学习器,并且在进行下一轮学习时,前面的每一轮所学习的弱学习器都将影响该轮的学习。

二、 Exclusive Feature Bundling

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值