XGBoost相关常见面试题

最新推荐文章于 2025-03-07 15:08:04 发布

转载最新推荐文章于 2025-03-07 15:08:04 发布 · 3k 阅读

CC 4.0 BY-SA版权

原文链接：https://mp.weixin.qq.com/s?__biz=MzI1MzY0MzE4Mg==&mid=2247485159&idx=1&sn=d429aac8370ca5127e1e786995d4e8ec&chksm=e9d01626dea79f30043ab80652c4a859760c1ebc0d602e58e13490bf525ad7608a9610495b3d&mpshare=1&scene=24&srcid=&sharer_sharetime=1567660464133&sharer_s

文章标签：

#XGBoost

百面机器学习专栏收录该内容

2 篇文章

订阅专栏

本文深入解析XGBoost算法，涵盖其与GBDT、LightGBM的区别，如何处理不平衡数据及缺失值，防止过拟合的方法，参数调优策略，以及模型的Scalable性。通过对比RF和GBDT，阐述XGBoost在处理高维稀疏特征时的优势。

XGBoost相关常见面试题

1 简单介绍一下XGBoost

首先需要说一说GBDT，它是一种基于boosting增强策略的加法模型，训练的时候采用前向分布算法进行贪婪学习，每次迭代都学习一棵CART树来拟合之前t-1棵树的预测结果与训练样本真实值的残差。

XGBoost对GBDT进行了一系列的优化，比如损失函数进行了二阶泰勒展开，目标函数加入了正则项，支持并行和默认缺失值处理等等，在可扩展性和训练速度上有了很大的提升，但其核心思想并没有大的变化。

1-2 简单介绍一下GBDT

提到GBDT之前，一定要说一下Boosting，Boosting是一种与Bagging很类似的技术。无论是Boosting还是Bagging，所使用的多个分类器类型都是一致的。但是在Boosting中，不同的分类器是通过串行训练而获得的，每个新分类器都根据已训练的分类器的性能来进行训练。Boosting是通过关注被已有分类器错分的那些数据来获得新的分类器。

由于Boosting分类的结果是基于所有分类器的加权求和结果的，因此Boosting与Bagging不太一样，Bagging中的分类器权值是一样的，而Boosting中的分类器权重并不相等，每个权重代表对应分类器在上一轮迭代的成功度。

GBDT与传统的Boosting区别还有点大，它的每一次计算都是为了减少上一次的残差，而为了消除残差，我们可以在残差减小的梯度方向上建立模型,所以说，在GradientBoost中，每个新的模型的建立是为了使得之前的模型的残差往梯度下降的方法，与传统的Boosting中关注正确错误的样本加权有很大的区别。

在GradientBoosting算法中，关键就是利用损失函数的负梯度方向在当前模型的值作为残差的近似值，进而拟合一棵CART回归树

GBDT会累加所有树的结果，而这种累加是无法通过分类完成的，因此GBDT的树都是CART回归树，而不是分类树。

2 XGBoost和GBDT有什么区别

基分类器：XGBoost的基分类器不仅支持CART决策树，还支持线性分类器，此时XGBoost相当于带L1和L2正则化项的逻辑回归(分类问题)或者线性回归(回归问题)
导数信息:XGBoost对损失函数做了二阶泰勒展开，GBDT只用了一阶导数信息。并且在损失函数一阶，二阶可导的条件下，XGBoost可以自定义损失函数。
正则项：XGBoost的目标函数加了正则项，相当于预剪枝，使得学习出来的模型更加不容易过拟合。
列抽样：XGBoost支持列抽样，与随机森林类似，用于防止过拟合。
缺失值处理：对树中的每个非叶子节点，XGBoost可以自动学习出它的默认分裂方向。如果某个样本该特征值确缺失，会将其划入默认分支。
并行化：XGBoost 的并行化并不是指的tree维度的并行，而是特征维度的并行，XGBoost预先将每个特征按特征值排好序，存储为块(block)结构，分裂节点时可以采用多线程并行查找每个特征的最佳分割点，极大提升训练速度。这个块存储结构也使得并行成为可能，在进行节点分裂时，需要计算每个特征的信息增益，最终选增益最大的那个特征去做分裂，那么各个特征的增益计算就可以开多线程并行。

2-2 XGBoost和Light GBM的区别

1 树增长策略：XGB采用level-wise的分裂策略，LGB采用leaf-wise的分裂策略。XGB对每一层所有节点做无差别分裂，但是可能有些节点增益非常小，对结果影响不大，带来不必要的开销。leaf-wise是在所有叶子节点中选取分裂收益最大的节点进行的，但是很容易出现过拟合问题，所以需要对最大深度做限制。
2 分割点查找算法：XGB使用特征预排序算法，LGB使用基于直方图的切分点算法，其优势如下：
- 减少内存占用，比如离散为256个bin时，只需要用8位整型就可以保存为一个样本被映射位哪个bin(这个bin可以说就是转换后的特征)，对比预排序的exact greedy算法来说，(用int_32来存储索引+用float_32保存特征值)，可以节省7/8的空间
- 计算效率提高。预排序的Exact greedy对每个特征都需要遍历一边数据，并计算增益，复杂度位O(#feature x #data)。而直方图算法在建立王直方图后，只需要对每个特征遍历直方图即可，复杂度为O(#feature x #bin)
- LGB 还可以使用直方图做差加速，一个节点的直方图可以通过父节点的直方图减去兄弟节点的直方图得到，从而加速计算。
  - 实际上XGBoost中共的近似直方图也类似与light GBM中的直方图算法，但是xgb的近似算法比lgb慢很多主要是因为xgboost在每一层都动态构建直方图，因为xgboost的直方图算法不是针对某个特定的feature，而是所有feature都共享一个直方图(每个样本的权重是二阶导)，所以每一层都要重新构建直方图，而lightgbm中对每个特征都有一个直方图，所以构建一次直方图就够了。
3 支持离散变量：xgb无法直接输入类别型变量，因此需要实现对类别型变量进行编码(如独热编码)，而lightgbm可以直接处理类别型变量。
4 缓存命中率：XGB使用Block结构的一个缺点是取梯度的时候，是通过索引来获取的，而这些梯度的获取顺序是按照特征的大小顺序的，这将导致非连续的内存访问，可能使得CPU cache缓存命中率低，从而影响算法效率。而LGB是基于直方图分裂特征的，梯度信息都存储在一个个bin中，所以访问梯度是连续的，缓存命中率高。
5 LightGBM和XGBoost的并行策略不同：
- 特征并行： LGB特征并行的前提是每个worker留有一份完整的数据集，但是每个worker仅在特征子集上进行最佳切分点的寻找；worker之间需要相互通信，通过比对损失来确定最佳切分点；然后将这个最佳切分点的位置进行全局广播，每个worker进行切分即可。XGB的特征并行与LGB的最大不同在于XGB每个worker节点中仅有部分的列数据，也就是垂直切分，每个worker寻找局部最佳切分点，worker之间相互通信，然后在具有最佳切分点的worker上进行节点分裂，再由这个节点广播一下被切分到左右节点的样本索引号，其他worker才能开始分裂。二者的区别就导致了LGB中worker间通信成本明显降低，只需通信一个特征分裂点即可，而XGB中要广播样本索引。
- 数据并行：当数据量很大，特征相对较少时，可采用数据并行策略。LGB中先对数据水平切分，每个worker上的数据先建立起局部的直方图，然后合并成全局的直方图，采用直方图相减的方式，先计算样本量少的节点的样本索引，然后直接相减得到另一子节点的样本索引，这个直方图算法使得worker间的通信成本降低一倍，因为只用通信以此样本量少的节点。XGB中的数据并行也是水平切分，然后单个worker建立局部直方图，再合并为全局，不同在于根据全局直方图进行各个worker上的节点分裂时会单独计算子节点的样本索引，因此效率贼慢，每个worker间的通信量也就变得很大。
- 投票并行(LGB)：当数据量都很大时，选用投票并行，该方法是数据并行的一个改进。数据并行中的合并直方图的代价相对较大，尤其当特征维度很大时，大致思想是：每个worker首先会找到本地的一些优秀的特征，然后进行全局投票，根据投票结果，选择top的特征进行直方图的合并，再寻求全局的最优分割点。

3 XGBoost为什么用二阶泰勒展开

精准性：相对于GBDT的一阶泰勒展开，XGBoost采用二阶泰勒展开，可以更为精准的逼近真实的损失函数。
可扩展性：损失函数支持自定义，只需要新的损失函数二阶可导

4 XGBoost为什么可以并行训练

XGBoost的并行，并非每棵树可以并行训练，XGB本质上还是采用boosting思想，每棵树训练前需要等前面的树训练完成才能开始训练。
XGBoost的并行，指的使特征维度上的并行，在训练之前，每个特征按照特征值对样本进行预排序，并存储为block结构，在后面查找特征分割点时可以重复使用，而且特征已经被存储为一个个block结构，那么在寻找每个特征的最佳分裂点时，可以利用多线程对每个block并行计算。

5 XGBoost为什么快

分块并行：训练前每个特征按照特征值排序并存储为Block结构，后面查找特征分割点时重复使用，并且支持并行查找每个特征的分割点。
候选分位点：每个特征采用常数个分位点作为候选分割点。
CPU cache 命中优化：使用缓存预取的方法，对每个线程分配一个连续的buffer，读取每个block中样本的梯度信息并存入连续的Buffer中。
Block处理优化：Block预先放入内存，Block按列进行解压缩，将Block划分到不同硬盘来提高吞吐。

6 XGBoost防止过拟合的方法

XGBoost在设计时，为了防止过拟合做了很多优化。具体如下：

目标函数添加正则项：叶子节点个数+叶子节点权重的L2正则化
列抽样：训练的时候只用一部分特征(不考虑剩余的Block块即可)
子采样：每轮计算可以不适用全部样本，使得算法更加保守
shrinkage：学习率/步长,为了给后面的训练留出更多的学习空间。

7 XGBoost如何处理缺失值

在特征K上寻找最佳split point时，不会对该列特征missing的样本进行遍历，而只对该列特征值为non-missing的样本上对应的特征值进行遍历，通过这个技巧来减少了为稀疏离散特征寻找split point的时间开销
在逻辑实现上，为了保证完备性，会将该特征值missing的样本分别分配到左叶子结点和右叶子结点，两种情形都计算一遍后，选择分裂后增益最大的那个方向(左分支或者右分支)，作为预测时特征值缺失样本的默认分支方向
如果在训练中没有缺失值而在预测中出现缺失，那么会自定将缺失值的划分方向放到右子结点

8 XGBoost中叶子结点的权重如何计算出来

XGBoost的目标函数最终推到形式如下:
$Obj^{(t)} = \sum_{j=1}^{T}[G_{j}w_{j} + \frac{1}{2}(H_{j}+\lambda)w_{j}^{2}] + \gamma T$
利用一元二次函数求最值的知识，当目标函数达到最小值Obj时，每个叶子结点的权重为wj

具体公式如下
$w^{*}_{j} = - \frac{G_{j}}{H_{j}+\lambda} 每个叶子结点的权重$

$-\frac{1}{2}\sum_{j=1}{T}\frac{G_{j}^{2}}{H_{j}+\lambda} +\gamma T 第t颗树带来的最小损失(训练损失+正则损失)$

9 XGBoost中的一颗树停止生长条件

当新引入一次分裂所带来的增益Gain<0时，放弃当前的分裂。这是训练损失和模型结构复杂度的博弈过程
当树达到最大深度时，停止建树，因为树的深度太深容易出现过拟合现象，这里需要设置一个超参数，max_depth
当引入一次分裂后，重新计算新生成的左右两个叶子结点的样本权重和。如果任一个叶子结点的样本权重低于某一个阈值，也会放弃此次分裂。这涉及到一个超参数：最小样本权重和，是指如果一个叶子结点包含的样本数量太少也会放弃分裂，防止树分的太细。