机器学习面试必知：XGBoost简介

最新推荐文章于 2024-06-06 14:45:00 发布

Neekity

最新推荐文章于 2024-06-06 14:45:00 发布

阅读量916

点赞数 2

分类专栏：机器学习统计学习面试文章标签： XGBoost 集成学习

本文链接：https://blog.csdn.net/Neekity/article/details/88235307

版权

机器学习同时被 3 个专栏收录

39 篇文章 1 订阅

订阅专栏

面试

39 篇文章 3 订阅

订阅专栏

统计学习

23 篇文章 1 订阅

订阅专栏

原始的GBDT算法基于经验损失函数的负梯度来构造新的决策树，只是在决策树构建完成后再进行剪枝。而XGBoost在决策树构建阶段就加入了正则项即 $L_{t}=\sum_{i}l(y_{i},F_{t-1}(x_{i})+f_{t}(x_{i}))+\Omega(f_{t})$ 其中 $F_{t-1}(x_{i})$ 表示现有的 $t - 1$ 棵树最优解。正则项定义为 $\Omega(f_{t})=\gamma T+\frac{1}{2}\lambda \sum_{j=1}^{T}w_{j}^{2}$ 其中 $T$ 为叶子节点个数， $w_{j}$ 表示第 $j$ 个叶子节点的预测值。对该损失函数在 $F_{t-1}$ 处进行二阶泰勒展开可以推导出 $L_{t}\approx \tilde{L}_{t}=\sum_{j=1}^{T}\left\{G_{j}w_{j}+\frac{1}{2}(H_{j}+\lambda)w_{j}^{2} \right\}+\gamma T$ 其中 $T$ 为决策树 $f_{t}$ 中叶子节点的个数， $G_{j}=\sum_{i\in I_{j}}\bigtriangledown _{F_{t-1}}l(y_{i},F_{t-1}(x_{i}))$ $H_{j}=\sum_{i\in I_{j}}\bigtriangledown _{F_{t-1}}^{2}l(y_{i},F_{t-1}(x_{i}))$ $I_{j}$ 表示所有属于叶子节点 $j$ 的样本的索引的结合。

假设决策树的结构已知，通过令损失函数相对于 $w_{j}$ 的导数为0可以求出在最小化损失函数的情况下各个叶子节点上的预测值 $w_{j}^{*}=-\frac{G_{j}}{H_{j}+\lambda}$
在实际中往往采用贪心法来构建出一个次优的树结构，基本思想是从根节点开始，每次对一个叶子节点进行分裂，针对每一种可能分裂根据特定的准则选取最优的分裂。

XGBoost如同ID3,C4.5,CART那样也有自己特定的准则
通过将预测值代入到损失函数中可求得损失函数的最小值 $\tilde{L}_{t}^{*}=-\frac{1}{2}\sum_{j=1}^{T}\frac{G_{j}^{2}}{H_{j}+\lambda}+\gamma T$
容易计算出分裂前后损失函数的差值为 $Gain=\frac{G_{L}^{2}}{H_{L}+\lambda}+\frac{G_{R}^{2}}{H_{R}+\lambda}-\frac{(G_{L}+G_{R})^{2}}{H_{L}+H_{R}+\lambda}-\gamma$ XGBoost采用最大化这个差值作为准则来进行决策树的构建，通过遍历所有特征的所有值，寻找使得损失函数前后差值最大的相对应分裂方式。此外由于损失函数前后存在差值一定是正的限制，此时 $\gamma$ 起到了一定的预剪枝效果。

除了算法上与传统的GBDT有不同外，XGBoost还在工程实现上做了大量的优化。
（1）GBDT是机器学习算法，XGBoost是该算法的工程实现
（2）在使用CART作为基分类器时，XGBoost显式地加入了正则项来控制模型的复杂度。
（3）GBDT在模型训练时只使用来代价函数的一阶导数信息，XGBoost对代价函数进行二阶泰勒展开，可以同时使用一阶和二阶导数。
（4）传统的GBDT采用CART作为基分类器，XGBoost支持多种类型的基分类器，比如线性分类器。
（5）传统的GBDT在每轮迭代时使用全部数据集，XGBoost采用与随机森林相似的策略，支持对数据进行采样。
（6）传统的GBDT没有设计对缺失值进行处理，XGBoost能够自动学习出缺失值的处理策略。

XGBoost的并行
XGBoost的并行并不能像随机森林那样一次能建立多个决策树，XGBoost是一次迭代完才能进行下一次迭代的（第t次迭代的代价函数里包含了前面t-1次迭代的预测值）。XGBoost的并行体现在特征粒度上，决策树的学习最耗时的一个步骤就是对特征的值进行排序（因为要确定最佳分割点）。XGBoost在训练之前，预先对数据进行了排序，然后保存为block结构，后面的迭代中重复地使用这个结构，大大减小计算量。这个block结构也使得并行成为了可能，在进行节点的分裂时，需要计算每个特征的 $G a i n$ ，最终选最大的那个特征去做分裂，那么各个特征的计算就可以开多线程进行。
树节点在进行分裂时，我们需要计算每个特征的每个分割点对应的增益，即用贪心法枚举所有可能的分割点。当数据无法一次载入内存或者在分布式情况下，贪心算法效率就会变得很低，所以xgboost还提出了一种可并行的近似直方图算法，用于高效地生成候选的分割点。

Neekity

关注

2
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
机器学习面试必知：XGBoost简介

原始的GBDT算法基于经验损失函数的负梯度来构造新的决策树，只是在决策树构建完成后再进行剪枝。而XGBoost在决策树构建阶段就加入了正则项即Lt=∑il(yi,Ft−1(xi)+ft(xi))+Ω(ft)L_{t}=\sum_{i}l(y_{i},F_{t-1}(x_{i})+f_{t}(x_{i}))+\Omega(f_{t})Lt=i∑l(yi,Ft−1(xi)+ft(xi))...
复制链接

扫一扫

专栏目录