树家族集成篇--xgboost篇（基于spark）

月笼纱lhz

已于 2024-05-09 11:32:03 修改

阅读量1.2k

点赞数

分类专栏： spark大数据分析文章标签： spark 决策树机器学习

于 2021-08-01 22:35:50 首次发布

本文链接：https://blog.csdn.net/weixin_39732131/article/details/119281580

版权

spark大数据分析专栏收录该内容

46 篇文章 2 订阅

订阅专栏

1、数据质量要求

算法	机器学习类别	缺失值	连续值	不平衡数据	离群点	数据归一	离散特征处理	树形	特征选择依据	spark实现	过拟合处理、参数
xgboost	二分类、多分类、回归	不敏感	不敏感	不敏感	敏感	不敏感	one-hot	树或者线性模型	目标函数增益	第三方
梯度提升决策树（GBDT）	spark支持二分类、回归	敏感， spark需处理	不敏感	分类可能敏感	敏感	不敏感	one-hot 或 K值编码	二叉树	mse	yes	超参数： loss类型、nums、learningrate一般不调
随机森林（rf）	多分类、回归	敏感， spark需处理	不敏感	不敏感	不敏感	不敏感	one-hot 或 K值编码	--	树的特征选择依据	yes	超参数：在上述决策树的基础上，增加树的个数nums、featuresaction一般不调
决策树-ID3	多分类	无法处理	无法处理	不敏感	不敏感	不敏感	可处理	多叉树	信息增益	no
决策树-C4.5	多分类	不敏感	不敏感	不敏感	不敏感	不敏感	one-hot 或 K值编码	多叉树	信息增益率	no	后剪枝，计算大
决策树-CART	多分类	spark中敏感，需处理	不敏感	不敏感	不敏感	不敏感	one-hot	二叉树	Gini系数	yes	超参数： maxdepth、 maxbins、mininfogain、impurity
决策树-CART	回归	spark中敏感，需处理	不敏感	--	敏感	不敏感	one-hot	二叉树	mse	yes	超参数：没具体使用，暂不清楚

注意：1

xgboost的离散特征需要进行one-hot编码（或者放到一个NN里训练得到embedding编码），gbdt不一定，spark里实现gbdt的时候可以区分离散特征、连续特征；而xgboost原理是把所有的特征当做连续特征，在对树生成的时候排序特征进行遍历然后切分。

embedding编码：？

注意2：

xgboost 进行多分类识别时，注意目标列进行编码从0 开始，否则会导致num_classes 错误，比实际数量多1

模型是使用离散特征还是连续特征，其实是一个“海量离散特征+简单模型” 同 “少量连续特征+复杂模型”的权衡。既可以离散化用线性模型，也可以用连续特征加深度学习。就看是喜欢折腾特征还是折腾模型了。通常来说，前者容易，而且可以n个人一起并行做，有成功经验；后者目前看很赞，能走多远还须拭目以待。

（1）调参

三类参数：

通用参数：宏观函数控制

Booster参数：控制每一步的booster(tree/regression)。

（注意 numClass 仅在多分类问题时才需要设置，2分类设置可能导致错误）

学习目标参数：控制训练目标的表现。

不平衡数据，有个scale_pos_weight 调整参数

2、原理解释

（1）白话原理

原理文章参考：深入理解XGBoost - 知乎

xgboost_聊伟的博客-CSDN博客_xgboost

调参文章参考：机器学习系列(12)_XGBoost参数调优完全指南（附Python代码）_寒小阳-CSDN博客_xgboost参数

官网调参说明：XGBoost Parameters — xgboost 1.6.0-dev documentation

简单理解：

是gbdt算法的工程实现，boosting流程差不多，不同的是目标函数发生了变化，1是增加了正则化项，2是目标函数采用泰勒二阶展开，这里导致的变化是在gbdt的时候通过目标函数和前项分布算法，给了当前树“拟合目标”，树去完成就好了；在xgboost这儿，目标函数形式变化后不是直接给出“拟合目标”，而是也对树结构有追求，因为最终的目标函数形式中包含当前树的叶子结点权重和节点数量。

目标函数推导过程：

（2）场景

可以处理回归、分类问题

（3）特点

优点

精度更高：GBDT 只用到一阶泰勒展开，而 XGBoost 对损失函数进行了二阶泰勒展开。XGBoost 引入二阶导一方面是为了增加精度，另一方面也是为了能够自定义损失函数，二阶泰勒展开可以近似大量损失函数；
灵活性更强：GBDT 以 CART 作为基分类器，XGBoost 不仅支持 CART 还支持线性分类器，使用线性分类器的 XGBoost 相当于带 L1 和 L2 正则化项的逻辑斯蒂回归（分类问题）或者线性回归（回归问题）。此外，XGBoost 工具支持自定义损失函数，只需函数支持一阶和二阶求导；
正则化：XGBoost 在目标函数中加入了正则项，用于控制模型的复杂度。正则项里包含了树的叶子节点个数、叶子节点权重的 L2 范式。正则项降低了模型的方差，使学习出来的模型更加简单，有助于防止过拟合，这也是XGBoost优于传统GBDT的一个特性。
Shrinkage（缩减）：相当于学习速率。XGBoost 在进行完一次迭代后，会将叶子节点的权重乘上该系数，主要是为了削弱每棵树的影响，让后面有更大的学习空间。传统GBDT的实现也有学习速率；
列抽样：XGBoost 借鉴了随机森林的做法，支持列抽样，不仅能降低过拟合，还能减少计算。这也是XGBoost异于传统GBDT的一个特性；
缺失值处理：对于特征的值有缺失的样本，XGBoost 采用的稀疏感知算法可以自动学习出它的分裂方向；
XGBoost工具支持并行：boosting不是一种串行的结构吗?怎么并行的？注意XGBoost的并行不是tree粒度的并行，XGBoost也是一次迭代完才能进行下一次迭代的（第t次迭代的代价函数里包含了前面t-1次迭代的预测值）。XGBoost的并行是在特征粒度上的。我们知道，决策树的学习最耗时的一个步骤就是对特征的值进行排序（因为要确定最佳分割点），XGBoost在训练之前，预先对数据进行了排序，然后保存为block结构，后面的迭代中重复地使用这个结构，大大减小计算量。这个block结构也使得并行成为了可能，在进行节点的分裂时，需要计算每个特征的增益，最终选增益最大的那个特征去做分裂，那么各个特征的增益计算就可以开多线程进行。
可并行的近似算法：树节点在进行分裂时，我们需要计算每个特征的每个分割点对应的增益，即用贪心法枚举所有可能的分割点。当数据无法一次载入内存或者在分布式情况下，贪心算法效率就会变得很低，所以XGBoost还提出了一种可并行的近似算法，用于高效地生成候选的分割点。

缺点

虽然利用预排序和近似算法可以降低寻找最佳分裂点的计算量，但在节点分裂过程中仍需要遍历数据集；
预排序过程的空间复杂度过高，不仅需要存储特征值，还需要存储特征对应样本的梯度统计值的索引，相当于消耗了两倍的内存。

3、代码相关

后续补充

月笼纱lhz

关注

0
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
树家族集成篇--xgboost篇（基于spark）

1、数据质量要求算法机器学习类别缺失值连续值不平衡数据离群点数据归一离散特征处理树形特征选择依据 spark实现过拟合处理、参数 xgboost 二分类、多分类、回归不敏感不敏感不敏感敏感不敏感 one-hot 树或者线性模型目标函数增益第三方梯度提升决策树（GBDT） spark支持二分类、回归敏感，..
复制链接

扫一扫