task_6 - 副本

最新推荐文章于 2024-06-19 02:38:00 发布

无价攻城狮

最新推荐文章于 2024-06-19 02:38:00 发布

阅读量72

点赞数

分类专栏：笔记 XGB、LBG、GBDT 文章标签：决策树机器学习算法

本文链接：https://blog.csdn.net/qq_45722145/article/details/121200524

版权

本文探讨了LightGBM和XGBoost两种梯度提升树算法的差异与优化策略。LightGBM通过互斥特征绑定减少计算复杂度，采用直方图优化算法和leaf-wise生长策略。XGBoost引入正则项防止过拟合，使用贪心算法构建决策树。两者各有特点，适用于不同的场景和数据集。

摘要由CSDN通过智能技术生成

Task07：梯度提升树-LightGBM

互斥特征绑定

实际的数据特征中可能有许多稀疏特征，即其非零值的数量远小于零值的数量，因此希望能够将这些特征进行合并来减少稀疏特征的数量，从而减少直方图构建的时间复杂度。我们将任意两个特征都不同时取非零值的特征集合称为一族互斥特征，数据集中的所有特征可被划分为这样的若干族互斥特征，例如下面就是一族互斥特征。

LightGBM提出了将互斥特征合并为单个特征的策略，从而让构建直方图的时间复杂度得以降低，因此需要找到最少的互斥绑定数量，即最少可以划分为几族。遗憾的是这个问题等价于图的着色问题，故它是NP-Hard的，目前并不存在多项式复杂度的解决方案，但我们可以通过近似方法来求解。为什么互斥特征绑定问题与图着色问题等价？如果我们把图的每一个顶点看做特征，将顶点之间是否存在边取决于两个特征是否存在同时为非零值的情况，若是则连接，那么此时没有边的顶点则代表他们之间满足互斥条件，将其涂上同种颜色作为同一族互斥特征，而寻找最少的绑定数量即是要寻找图的最少着色数。

XGBoost：

XGBoost是陈天奇等人开发的一个开源机器学习项目，高效地实现
了GBDT算法并进行了算法和工程上的许多改进。
原始的GBDT算法基于经验损失函数的负梯度来构造新的决策树，
只是在决策树构建完成后再进行剪枝。而XGBoost在决策树构建阶段就
加入了正则项。其分裂准则为：XGBoost需要从所有的树结构中找出一个最优的树结构，这是一个NP-hard问题，因此在实际中通常采用贪心算法来构建一个次优的树结构，基本思想是从根节点开始，每