lightgbm原理_LightGBM 原理及参数学习

LightGBM是为解决GBDT在海量数据中的效率问题而提出的,它采用Histogram算法、Leaf-wise生长策略和多项优化措施,如深度限制、直方图做差加速等,以提高训练速度和模型效果。相比Xgboost,LightGBM在空间和时间效率上有显著优势,同时支持类别特征和多线程优化。
摘要由CSDN通过智能技术生成

1.原理

LightGBM 是一个梯度 boosting 框架, 使用基于学习算法的决策树。

1.1 GBDT和 LightGBM诞生的原因

​ GBDT (Gradient Boosting Decision Tree) 是机器学习中一个长盛不衰的模型,其主要思想是利用弱分类器(决策树)迭代训练以得到最优模型。

但是 GBDT 在每一次迭代的时候,都需要遍历整个训练数据多次。如果把整个训练数据装进内存则会限制训练数据的大小;如果不装进内存,反复地读写训练数据又会消耗非常大的时间。尤其面对工业级海量的数据,普通的 GBDT 算法是不能满足其需求的。

因此为了解决 GBDT 在海量数据遇到的问题,提出了LightGBM。LightGBM (Light Gradient Boosting Machine)是一个实现 GBDT 算法的框架,支持高效率的并行训练。

1.2 基于GBDT的另一种框架:Xgboost

​ xgboost是基于预排序的方法(pre-sorted)的决策树算法。这种构建决策树的算法基本思想是:  

  1. 对所有特征都按照特征的数值进行预排序;
  2. 在遍历分割点的时候用 O(#data) 的代价找到一个特征上的最好分割点;
  3. 找到一个特征的分割点后,将数据分裂成左右子节点。   

优点是:能精确地找到分割点。   

缺点是:1、空间消耗大。这样的算法需要保存数据的特征值,还保存了特征排序的结果(例如:保存排序后的索引,为了后续快速的计算分割点),这里需要消耗训练数据两倍的内存。2、时间上也有较大的开销ÿ

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值