Lightgbm学习笔记

最新推荐文章于 2022-10-05 12:58:52 发布

weixin_33725126

最新推荐文章于 2022-10-05 12:58:52 发布

阅读量134

点赞数

文章标签：数据结构与算法大数据人工智能

原文链接：https://juejin.im/post/5ba09bd4e51d450e436939da

版权

lightgbm是微软提出的框架，支持各种不同的语言，其GitHub为https://github.com/Microsoft/LightGBM

它的相关技术文章LightGBM: A Highly Efficient Gradient Boosting Decision Tree发表于NIPS2017.

文章认为，GBDT运行过程中的主要代价是在学习新的决策树的过程中，选择best split points的过程。在lightgbm之前，在这上面使用的主要优化方法包括：

Presorted，即对所有数据点进行预排序。排序代价至少为 O(#data * log(#data))
Histgram，即对数据生成feature直方图，并根据直方图进行划分。生成直方图的代价为 O(#data * #feature), 而根据排序后的数据寻找划分点的代价为 O(#bin * #feature). 一般来说 #bin是远远小于#feature的。

Scikit-learn支持presorted优化方法，pGBRT支持hist优化方法，而XGboost支持这两个方法。

文章主要提出的创新包括两点：

Gradient-Based One-Side Sampling(GOSS)

GOSS的目标是降低运行中的资源消耗。它的主要思想是类似于adaboost，样本应该具有不同的权重。但在GBDT中，样本的权重都是一样的，所以它根据样本梯度来确定样本重要性。但是直接把小梯度的样本去掉会影响数据分布，所以选择了采样方法。

它首先根据样本能产生的梯度对样本进行排序。根据这一排序，它保留前a%的样本，并在其他样本中随机选择总样本数量b%的样本。对这b%的小梯度的样本，在计算information gain时进行放大，放大系数为 (1-a)/b 。文章证明了这种采样方法会产生的偏差是很小的。

Exclusive Feature Bundling (EFB)

EFB是一种feature组合方法，其主要思想为：在大数据集中，存在许多的稀疏高维feature，这些feature中，有些是完全没有交集的（即在任何一个样本中，两个feature不存在同时不为0的情况），那么这些feature就完全可以被安全地合并起来。通过把feature聚合成一些bundle，我们可以把histogram building cost从 O(#feature * #data)降低到 O(#bundle * #data).

把feature聚合成bundle的最优算法等同于图着色问题，是一个NP-hard问题，所以我们只能用贪心算法得到近似解。

在合并feature时，lightgbm使用的算法为range扩展。例如我们要合并feature A和feature B， $A \in [0, 10)$ , $B \in [0, 20)$ ，则我们给B一个offset，合并后的新feature范围为 [0, 30) .

weixin_33725126

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Lightgbm学习笔记

lightgbm是微软提出的框架，支持各种不同的语言，其GitHub为https://github.com/Microsoft/LightGBM它的相关技术文章LightGBM: A Highly Efficient Gradient Boosting Decision Tree发表于NIPS2017.文章认为，GBDT运行过程中的主要代价是在学习新的决策树的过程中，选择best split ...
复制链接

扫一扫