回首再看LightGBM

最新推荐文章于 2024-01-21 19:16:34 发布

fly_Xiaoma

最新推荐文章于 2024-01-21 19:16:34 发布

阅读量635

点赞数

分类专栏： machineLearning

本文链接：https://blog.csdn.net/weixin_38664232/article/details/89221653

版权

machineLearning 专栏收录该内容

33 篇文章 2 订阅

订阅专栏

LightGBM进一步改进---使用leaf-wise策略

Leaf-wise缺点：

LightGBM再进一步改进---直方图做差

LightGBM直接支持类别型特征

LightGBM调参需要注意：

要了解LightGBM需要先了解GBDT。

GBDT：

GBDT(Gradient Boosting Decision Tree)，梯度提升决策树，是机器学习中一个长盛不衰的模型，其主要思想是利用弱分类器（决策树）迭代训练以得到最优模型，这种模型具有训练效果好、不容易过拟合等特点。GBDT在工业界应用广泛，通常被用于点击率预测，搜索、排序等任务。GBDT也是各种数据挖掘竞赛的致命武器，据统计Kaggle上的比赛一般以上的冠军方案都是基于GBDT。

LightGBM(Light Gradient Boosting Machine)是一个实现GBDT算法的框架，它的Light主要体现在处理海量的数据上。

LightGBM的改进：

常用的机器学习算法，例如神经网络等算法，都可以以mini-batch的方式训练，训练数据的大小不会受内存的限制。

而GBDT在每一次迭代的时候，都需要遍历整个训练数据多次。如果把整个训练数据装进内存则会限制训练数据的大小；如果不装进内存，反复地读写训练数据又会消耗非常大的时间，尤其是面对工业级海量的数据，普通的GBDT算法是不能满足其需求的。

而LightGBM就可以解决这个问题。

改进：

取消了传统GBDT算法对数据的预排序。

目前已有的gbdt工具是基于预排序（pre-sorted）的决策树算法（如xgboost）。这种构建决策树的算法基本思想是：

对所有特征都按照特征的数值进行预排序
在遍历分割点的时候，用O（#data）的代价找到一个特征上的最好分割点
找到一个分割点后，将数据分裂成左右子节点。
这样的预排序算法能够精确地找到分割点

gbdt算法的缺点：

空间消耗大。这样的算法需要保存数据的特征值，还保存了特征排序的结果（如排序后的索引，为了后续快速计算分割点），内存的消耗为训练数据的两倍。
时间消耗大。在遍历每一个分割点的时候，都要进行分裂增益的计算，时间消耗多。
对cache优化不友好。在预排序后，特征对梯度的访问是一种随机访问，并且不同的特征访问的顺序不一样，无法对cache进行优化。同时在每一层生长树的时候，需要随机访问一个行索引到叶子索引的数组，并且不同特征访问的顺序也不一样，会造成较大的cache miss。

采用Histogram算法

直方图算法的基本思想是先把连续的浮点特征值离散化成k个整数，同时构造一个宽度为k的直方图。在遍历数据的时候，根据离散化后的值作为索引在直方图中累计统计量，当遍历一次数据后，直方图累积了需要的统计量，然后根据直方图的离散值，遍历寻找最优的分割点。

使用直方图的优点：

内存消耗的降低，直方图算法不需要额外存储预排序的结果，而且可以只保存特征离散化后的值，而这个值一般用8位整型存储就足够了，内存消耗可以降低为原来的1/8

计算代价上的降低。gbdt中的预排序算法，每遍历一个特征值就需要计算一次分裂的增益，而直方图算法只需要计算k次，时间复杂度从O(#data*#feature)降到了O(#k*#feature)

使用直方图的缺点：

特征被离散化后，找到的并不是很精确的分割点，对结果会有影响。但是由于决策树属于弱学习器，分割点是不是很精确并不是很重要；较粗的分割点也有正则化的效果，可以有效地防止过拟合----也就是说单棵树比精确分割的误差大，但在梯度提升的框架下没有很大的影响。

LightGBM进一步改进---使用leaf-wise策略

在直方图算法的基础上，LightGBM进行进一步的优化。由于gbdt的Level-wise生长策略不加区分的对待同一层的叶子，带来了很多没有必要的开销，因为很多叶子的分裂增益很低，没有必要进行搜索和分裂。

Leaf-wise的策略是，每次从当前所有的叶子中，寻找分裂增益最大的一个叶子，然后分裂，如此循环。同Level-wise相比，Leaf-wise可以降低更多的误差，得到更好的精度。

Leaf-wise缺点：

容易生长出较深的决策树，产生过拟合。因此通常增加一个最大深度的限制，在保证高效率的同时防止过拟合。

LightGBM再进一步改进---直方图做差

一个叶子的直方图可以由它的父节点的直方图与它兄弟节点的直方图做差得到。通常构造直方图需要遍历该叶子上的所有数据，但直方图做差仅需遍历直方图的k个桶。使用这种方法，LightGBM可以用非常小的代价得到它兄弟叶子的直方图，在速度上可以提升一倍。

LightGBM直接支持类别型特征

LightGBM调参需要注意：

num_leaves 由于LightGBM采用Leaf-wise策略，因此在调节树的复杂度时，使用的是num_leaves，而不是max_depth。大致换算关系：num_leaves=2^max_dapth。
样本分布非平衡数据集：可以设置param['is_unbalance']='true'
Bagging参数：bagging_fraction+bagging_freq（必须同时设置）、feature_fraction
min_data_in_leaf、min_sum_hessian_in_leaf