Ensemble Learning Task 11

最新推荐文章于 2024-10-09 23:54:44 发布

DataVVhale

最新推荐文章于 2024-10-09 23:54:44 发布

阅读量165

点赞数

分类专栏：集成学习文章标签：机器学习算法

本文链接：https://blog.csdn.net/baidu_36184635/article/details/116166742

版权

15 篇文章 0 订阅

订阅专栏

学习地址：https://github.com/datawhalechina/team-learning-data-mining/tree/master/EnsembleLearning

Task 10 的主要学习内容是 XGBoost 和LightGBM 算法

XGBoost

基于GBDT算法框架，陈天奇开发了对于GBDT框架进行高效实现的XGBoost算法。具体优势体现在以下几点：

LightGBM本质上和XGBoost是一样的，只是在XGB的基础上进行了针对性的优化。具体罗列如下：

基于直方图的决策树算法。
单边梯度采样 Gradient-based One-Side Sampling(GOSS)：使用GOSS可以减少大量只具有小梯度的数据实例，这样在计算信息增益的时候只利用剩下的具有高梯度的数据就可以了，相比XGBoost遍历所有特征值节省了不少时间和空间上的开销。
互斥特征捆绑 Exclusive Feature Bundling(EFB)：使用EFB可以将许多互斥的特征绑定为一个特征，这样达到了降维的目的。
带深度限制的Leaf-wise的叶子生长策略：大多数GBDT工具使用低效的按层生长 (level-wise) 的决策树生长策略，因为它不加区分的对待同一层的叶子，带来了很多没必要的开销。实际上很多叶子的分裂增益较低，没必要进行搜索和分裂。LightGBM使用了带有深度限制的按叶子生长 (leaf-wise) 算法。
直接支持类别特征(Categorical Feature)
支持高效并行
Cache命中率优化