Lightgbm学习笔记

最新推荐文章于 2024-02-23 16:16:14 发布

做推荐的Bella酱

最新推荐文章于 2024-02-23 16:16:14 发布

阅读量252

点赞数 1

分类专栏： GBDT系列

本文链接：https://blog.csdn.net/friyal/article/details/82758421

版权

GBDT系列专栏收录该内容

5 篇文章 1 订阅

订阅专栏

lightgbm是微软提出的框架，支持各种不同的语言，其GitHub为https://github.com/Microsoft/LightGBM

它的相关技术文章LightGBM: A Highly Efficient Gradient Boosting Decision Tree发表于NIPS2017. 文章认为，GBDT运行过程中的主要代价是在学习新的决策树的过程中，选择best split points的过程。在lightgbm之前，在这上面使用的主要优化方法包括：

Presorted，即对所有数据点进行预排序。排序代价至少为 O(#data * log(#data))
Histgram，即对数据生成feature直方图，并根据直方图进行划分。生成直方图的代价为 O(#data * #feature), 而根据排序后的数据寻找划分点的代价为 O(#bin * #feature). 一般来说 #bin是远远小于#feature的。Scikit-learn支持presorted优化方法，pGBRT支持hist优化方法，而XGboost支持这两个方法。

文章主要提出的创新包括两点：

Gradient-Based One-Side Sampling(GOSS)

GOSS的目标是降低运行中的资源消耗。它的主要思想是类似于adaboost，样本应该具有不同的权重。但在GBDT中，样本的权重都是一样的，所以它根据样本梯度来确定样本重要性。但是直接把小梯度的样本去掉会影响数据分布，所以选择了采样方法。
它首先根据样本能产生的梯度对样本进行排序。根据这一排序，它保留前a%的样本，并在其他样本中随机选择总样本数量b%的样本。对这b%的小梯度的样本，在计算information gain时进行放大，放大系数为 $(1 - a) / b$ 。文章证明了这种采样方法会产生的偏差是很小的。
在这里插入图片描述

Exclusive Feature Bundling (EFB)

EFB是一种feature组合方法，其主要思想为：在大数据集中，存在许多的稀疏高维feature，这些feature中，有些是完全没有交集的（即在任何一个样本中，两个feature不存在同时不为0的情况），那么这些feature就完全可以被安全地合并起来。通过把feature聚合成一些bundle，我们可以把histogram building cost从 O(#feature * #data)降低到 O(#bundle * #data).
把feature聚合成bundle的最优算法等同于图着色问题，是一个NP-hard问题，所以我们只能用贪心算法得到近似解。
在合并feature时，lightgbm使用的算法为range扩展。例如我们要合并feature A和feature B， $\in [0, 10)$ , $\in [0, 20)$ ，则我们给B一个offset，合并后的新feature范围为 $[0, 30)$ .
在这里插入图片描述

做推荐的Bella酱

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Lightgbm学习笔记

lightgbm是微软提出的框架，支持各种不同的语言，其GitHub为https://github.com/Microsoft/LightGBM它的相关技术文章LightGBM: A Highly Efficient Gradient Boosting Decision Tree发表于NIPS2017. 文章认为，GBDT运行过程中的主要代价是在学习新的决策树的过程中，选择best split ...
复制链接

扫一扫

专栏目录