LightGBM算法梳理

LightGBM是一种基于Boosting的分布式算法,采用leaf-wise生长策略和直方图技术优化效率。文章介绍了LightGBM的起源、Histogram与pre-sorted的区别、特征并行和数据并行、顺序访问梯度优化以及类别特征处理。此外,还讨论了应用场景和关键参数,如num_leaves、min_data_in_leaf等,并对比了Catboost的类别特征处理和特征组合方法。
摘要由CSDN通过智能技术生成

1、LightGBM

     LightGBM是基于Boosting思想的分布式算法,基学习器为CART决策树。

2、LightGBM的起源

     2.1 传统的特征并行算法不能有效地加速特征选择的效率,当数据量很大时,该并行方法不能加快效率。并且,最优的分裂结果需要在worker之间进行传输,需要消耗很多的传输资源以及传输时间。

     2.2   传统的数据并行算法网络传输代价比较大,如果使用point-to-point的传输算法,每个worker的传输代价为O(#machine * #feature * #bin)。 如果使用All Reduce并行算子,传输代价为O(2* #feature * #bin)。

3、Histogram VS pre-sorted

     3.1 Histogram

    (1) 把连续的浮点特征值离散化成N个整数,构造一个宽度为N的直方图;对于分类特征,则是每一种取值放入一个bin,且当取值的个数大于max_bin数时,会忽略那些很少出现的category值。

    (2) 遍历数据时,根据离散化后的值作为索引在直方图中累积统计量。

    (3) 一次遍历后,直方图累积了需要的统计量,然后根据直方图的离散值,遍历寻找最优的分割点。 

     3.2 pre-sorted

      对所有特征都按照特征的数值进行预排序,基本思想是对所有特征都按照特征的数值进行预排序;然后在遍历分割点的时候用O(#data)的代

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值