Ensemble Learning Task 11

学习地址:https://github.com/datawhalechina/team-learning-data-mining/tree/master/EnsembleLearning

Task 10 的主要学习内容是 XGBoost 和LightGBM 算法

XGBoost 和LightGBM 算法

XGBoost

基于GBDT算法框架,陈天奇开发了对于GBDT框架进行高效实现的XGBoost算法。具体优势体现在以下几点:

  • 在XGBoost中,算法的目标函数包括了样本的损失以及模型的复杂度。
  • 使用梯度下降法只得到了原损失函数的一阶近似,XGBoost将损失函数进行了二阶泰勒展开,可以同时使用一阶和二阶导数。二阶导数有利于梯度下降的更快更准。
  • XGBoost在生成新树的过程中,最基本的操作是节点分裂。节点分裂中最重 要的环节是找到最优特征及最优切分点, 然后将叶子节点按照最优特征和最优切分点进行分裂。
  • 基于直方图的近似算法,数据事先排序并且以block形式存储,有利于并行计算。
  • xgboost借鉴了随机森林的做法,支持列抽样,不仅能降低过拟合,还能减少计算

LightGBM

LightGBM本质上和XGBoost是一样的,只是在XGB的基础上进行了针对性的优化。具体罗列如下:

  • 基于直方图的决策树算法。
  • 单边梯度采样 Gradient-based One-Side Sampling(GOSS):使用GOSS可以减少大量只具有小梯度的数据实例,这样在计算信息增益的时候只利用剩下的具有高梯度的数据就可以了,相比XGBoost遍历所有特征值节省了不少时间和空间上的开销。
  • 互斥特征捆绑 Exclusive Feature Bundling(EFB):使用EFB可以将许多互斥的特征绑定为一个特征,这样达到了降维的目的。
  • 带深度限制的Leaf-wise的叶子生长策略:大多数GBDT工具使用低效的按层生长 (level-wise) 的决策树生长策略,因为它不加区分的对待同一层的叶子,带来了很多没必要的开销。实际上很多叶子的分裂增益较低,没必要进行搜索和分裂。LightGBM使用了带有深度限制的按叶子生长 (leaf-wise) 算法。
  • 直接支持类别特征(Categorical Feature)
  • 支持高效并行
  • Cache命中率优化
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值