数据分析利器：XGBoost算法最佳解析

最新推荐文章于 2024-06-19 14:08:05 发布

腾讯技术工程

最新推荐文章于 2024-06-19 14:08:05 发布

阅读量9.7k

点赞数 4

文章标签：算法决策树大数据 python 机器学习

本文链接：https://blog.csdn.net/Tencent_TEG/article/details/111713754

版权

作者：symonxiong，腾讯 CDG 应用研究员

XGBoost是一种经典的集成式提升算法框架，具有训练效率高、预测效果好、可控参数多、使用方便等特性，是大数据分析领域的一柄利器。在实际业务中，XGBoost经常被运用于用户行为预判、用户标签预测、用户信用评分等项目中。XGBoost算法框架涉及到比较多数学公式和优化技巧，比较难懂，容易出现一知半解的情况。由于XGBoost在数据分析领域实在是太经典、太常用，最近带着敬畏之心，对陈天奇博士的Paper和XGBoost官网重新学习了一下，基于此，本文对XGBoost算法的来龙去脉进行小结。

本文重点解析XGBoost算法框架的原理，希望通过本文能够洞悉XGBoost核心算法的来龙去脉。对于XGBoost算法，最先想到的是Boosting算法。Boosting提升算法是一种有效且被广泛使用的模型训练算法，XGBoost也是基于Boosting来实现。Boosting算法思想是对弱分类器基础上不断改进提升，并将这些分类器集成在一起，形成一个强分类器。简而言之，XGBoost算法可以说是一种集成式提升算法，是将许多基础模型集成在一起，形成一个很强的模型。这里的基础模型可以是分类与回归决策树CART（Classification and Regression Trees），也可以是线性模型。如果基础模型是CART树（如图1所示），比如第1颗决策树tree1预测左下角男孩的值为+2，对于第1颗决策树遗留下来的剩余部分，使用第2颗决策树预测值为+0.9，则对男孩的总预测值为2+0.9=2.9。

图1.基于二叉树的XGBoost模型

XGBoost算法框架可以分为四个阶段来理解（如图2所示）。第一个阶段，如何构造目标函数？ 在进行优化求解时，首先需要构造目标函数，有了目标函数才能进行优化求解。这种思路和LR模型（Logistic Regression）是一致。在LR模型中，首先，对于回归问题构造平方项损失，对于分类问题构造最大似然损失作为目标函数，然后基于构造好的目标函数，才会考虑采用梯度下降算法进行优化求解，比如随机梯度下降、Mini-Batch批量梯度下降、梯度下降等。在这个阶段，我们可以得到XGBoost的基本目标函数结构。

第二个阶段，目标函数优化求解困难，如何对目标函数近似转换？ 在第一个阶段得到的基本目标函数较为复杂，不是凸函数，没法使用连续性变量对目标函数直接优化求极值。因此，使用泰勒级数对目标函数进行展开，对目标函数规整、重组后，将目标函数转换为关于预测残差的多项式函数。

第三个阶段，如何将树的结构引入到目标函数中？ 第二个阶段得到的多项式目标函数是一个复合函数。被预测的残差和模型复杂度还是未知的函数，需要对这两个函数进行参数化表示，即将决策树的结构信息通过数学符号表示出来。在第三个阶段，在树的形状确定情况下，可以优化求解出局部最优解。

第四个阶段，如何确定树的形状，要不要使用贪心算法？ 如何在模型空间里面寻找最优的决策树形状，这是一个NP-Hard问题，我们很难对可能存在的树结构全部罗列出来，尤其在特征个数很多情况下。因此，在这里需要使用贪心算法来求得局部最优解。

图2.XGBoost算法构建逻辑

1.如何构造目标函数？

当使用多棵树来预测时，假设已经训练了棵树，则对于第个样本的（最终）预测值为：

在公式1中，表示对个样本的预测值，属于集合范围内，表示通过第棵树对第个样本进行预测，比如第1棵树预测值为，第2棵树预测值为，依次类推，将这些树的预测值累加到一起，则得到样本的最终预测值。因此，如果要得到样本的最终预测值，需要训练得到棵树。

如果要训练得到棵树，首先需要构造训练的目标函数(如公式2所示)。在构建模型时，不仅需要考虑到模型的预测准确性，还需要考虑到模型的复杂程度，既准确又简单的模型在实际应用中的效果才是最好的。因此，目标函数由两部分构成，第一部分表示损失函数，比如平方损失、交叉熵损失、折页损失函数等。第一部分表示个样本总的损失函数值。因为在这里通过样本预测值和样本真实值的比较，可以计算出针对样本的模型预测损失值。这里可以暂时先不用考虑损失函数的具体形式，因为这里的损失函数，可以统一表示回归与分类问题的损失函数形式。

公式2的第二部分表示正则项，是用来控制模型的复杂度，模型越复杂，惩罚力度越大，从而提升模型的泛化能力，因为越复杂的模型越容易过拟合。XGBoost的正则化思路跟模型中加 / 正则化思路一致，不同的地方在于正则化项具体物理含义不同。在这里表示第棵树的复杂度，接下来的问题是如何对树的复杂度进行参数化表示，这样后面才能进行参数优化。

在损失函数中，是有很多个模型（决策树）共同参与，通过叠加式的训练得到。如图2所示，训练完第一颗树后，对于第一棵树没有训练好的地方，使用第二颗树训练，依次类推，训练第个棵树，最后训练第颗树。当在训练第棵树时，前面的第1棵树到第颗树是已知的，未知的是第棵树，即基于前面构建的决策树已知情况下，构建第棵树。

图3.XGBoost叠加式训练

对于样本，首先初始化假定第0棵树为，预测值为

最低0.47元/天解锁文章

腾讯技术工程

关注

4
点赞
踩
9

收藏

觉得还不错? 一键收藏
4
评论
数据分析利器：XGBoost算法最佳解析

作者：symonxiong，腾讯 CDG 应用研究员XGBoost是一种经典的集成式提升算法框架，具有训练效率高、预测效果好、可控参数多、使用方便等特性，是大数据分析领域的一柄利器。在实...
复制链接

扫一扫