XGBoost算法的相关知识

最新推荐文章于 2022-02-14 10:46:47 发布

置顶

VariableX

最新推荐文章于 2022-02-14 10:46:47 发布

阅读量3.5k

点赞数 6

分类专栏：机器学习基础文章标签：算法机器学习

本文链接：https://blog.csdn.net/VariableX/article/details/106149612

版权

XGBoost是基于梯度提升决策树的机器学习算法，它在GBDT基础上进行了优化，特别是目标函数的定义和正则化处理。通过损失函数的二阶泰勒展开，XGBoost可以快速优化模型，并通过正则项控制模型复杂度，防止过拟合。此外，XGBoost还采用了特征采样、样本采样、早停策略等手段来提高效率和泛化能力。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

背景

讲XGBoost之前，先引入一个实际问题，即预测一家人每个人玩游戏的意愿值：

如果我们用XGBoost解决这个问题，步骤是：首先要训练出来第一棵决策树，预测了一下小男孩想玩游戏的意愿是2，然后发现离标准答案差一些，再训练出第二棵决策树，预测了一下小男孩想玩游戏的意愿是0.9，最后两个相加就是最终的答案2.9。也就是说，XGBoost是把训练出来的弱分类结果进行累加当作最终的结论。

XGBoost的思想和GBDT有相似之处，比较大的不同就是目标函数的定义，即XGBoost聚焦与标准答案的残差。准确来说它是一种GBDT的工业级实现。其主要原理是在GBDT的基础上，在损失函数加入正则化部分，并且每一轮迭代对损失函数做二阶泰勒展开，加快对损失函数的优化速度。

XGBoost算法也是采用分步前向加性模型，只不过与GBDT不同，在每次迭代中生成弱学习器后不再需要计算一个系数。XGBoost 是由 k 个基模型组成的一个加法运算式：
$\hat y_i = \sum^k_{t=1}f_t(x_i)$
其中， $f_t$ 是第t个模型，损失函数可以由真实值 $y_i$ 和预测值 $\hat y_i$ 表示：
$\sum^N_{t=1}l(y_i, \hat y_i)$
其中N是样本个数。

定义损失函数

对于第m棵树而言，XGBoost的损失函数在GBDT损失函数中加入了如下的正则化：
$\Omega(f_t)=\gamma T_t+\frac{\lambda}{2}\sum_{j=1}^{T}\omega_{j}^2$
$T_t$ ：叶子节点数， $w_j$ ：叶子上的节点权重， $\gamma,\lambda$ 是超参数。当正则化为零时，目标回归到传统的梯度提升树。正则化起到了抑制模型复杂度的作用，从而避免了过拟合。

这里的 $\omega_{j}$ 和在GBDT里面使用的 $c_{j}$ 其实是一个意思，只是XGBoost论文里面使用 $\omega$ 符号表示叶子区域的值，这里为了和论文保持一致。最终，XGBoost的目标(损失)函数可以表示为：
$=\sum_{i=1}^n l(y_i,\hat y_i) + \sum_{t=1}^k \Omega(f_t)$
我们要极小化上面这个损失函数，得到第决策树最优的所有 $J$ 个叶子节点对应的区域和每个叶子节点区域的最优解 $\omega_{j}$ 。

接下来一步一步的对这个目标函数 $O b j$ 进行化简。主要由以下四步组成：

（1）原始目标函数Obj

（2）原始目标函数Obj的泰勒展开

（3）具体化目标函数的泰勒展开细节

（4）求解目标函数中的 $w_j$ ，并带入目标函数，得到最终版目标函数

（1）原始目标函数Obj

XGBoost在损失函数优化方面做了一些优化，基于损失函数的二阶泰勒展开式来求解。XGBoost算法也是采用分步前向加性模型，设第 $t - 1$ 步模型的输出为 $\hat y_i^{t-1}$ ，则第 $t$ 步模型的第 $i$ 个样本 $x_i$ 的预测为：
$\hat y_i ^t = \hat y_i^{t-1} + f_t(x_i)$
$f_t(x_i)$ 是需要新加入的模型。将 $\hat y_i ^t$ 带入Obj，则有：
$\begin{aligned} Obj^{t} &=\sum_{i=1}^n l(y_i,\hat y_i^t) + \sum_{i=1}^t \Omega(f_t) \\ &=\sum_{i=1}^n l\left(y_i, \hat y_i^{t-1} + f_t(x_i)\right) + \sum_{i=1}^t \Omega(f_t) \end{aligned}$
我们的目标是：求解当前的树 $f_t(x_i)$ ，使得Obj 最小。也就是：新生成的决策树要不断地拟合残差。