为什么XGBoost效果更好，速度更快

最新推荐文章于 2024-07-16 12:38:33 发布

置顶

仍歌

最新推荐文章于 2024-07-16 12:38:33 发布

阅读量7.9k

点赞数 2

分类专栏：机器学习笔记

本文链接：https://blog.csdn.net/ruggier/article/details/83381679

版权

本文深入探讨了XGBoost的优化策略，包括目标函数、梯度提升算法、防止过拟合的手段，如学习速率和采样技术，以及节点划分的精确法和近似法。XGBoost通过泰勒展开优化损失函数，采用近似算法和缓存优化提高运行效率，是大规模数据集上高效、准确的机器学习工具。

摘要由CSDN通过智能技术生成

xgboost 是一种集成学习方法，通过构建多棵决策树来实现分类和回归任务。

本文记录了xgboost的公式推导和系统实现的一些trick。
具体内容参加原论文《XGBoost: A Scalable Tree Boosting System》

模型描述

对于一棵决策树，给定以下符号表示
$∣ T ∣$ : 此棵树的叶子节点数
$q(\textbf{x})$ : $\textbf{x}$ 将会被映射到的叶子节点，故 $q (x)$ 的取值范围是 $[1, ∣ T ∣]$
$\textbf{w}_j$ : 第j个叶子节点的输出值。

如果将一棵决策树视为一个函数，则可以写成
$f(\textbf{x}) = w_{q(\textbf{x})}$

由于xgboost是使用多棵决策树，并且每棵树学习的上一棵树的残差，故xgboost的输出公式为
$\hat{y_i} = \sum_{k=1}^{K}f_k(\textbf{x}_i)$

其中第 $f_k$ 表示第k棵决策树，xgboost会在每一次迭代中生成一棵新的决策树。

目标函数

xgboost的目标函数
$\sum_il(\hat{y}_i, y_i) + \sum_k\Omega(f_k)$

$\Omega(f) = \gamma T + \frac{1}{2}\lambda\|w\|^2$

第一项用来衡量模型的分类的错误率,这里用来描述 $\hat{y}, y$ 之间的距离函数 $l$ , 并没有指定，可以使用平方差或者其他的损失函数。
第二项用于控制模型的复杂度

梯度提升算法

由于 $f$ 是一棵树，无法用梯度下降或者牛顿法这种方法进行优化，所以xgboost采用前向分步算法。这种算法是一种贪心算法，具体做法是从前向后，每一步只学习一个基函数及其系数，逐渐优化目标函数，也就是说xgboost每次迭代会产生一个新的决策树，并保持之前的决策树不变。

令 $y^{(t)}_i$ 表示第 $i$ 个样本在第 $t$ 次迭代时的输出结果，则：
$y_i^{(t)} = y_i^{(t - 1)} + f_t(\textbf{x}_i)$
则第t次迭代时，目标函数可以写成如下形式:
$L^{(t)} = \sum_{i=1}^nl(y_i, \hat y_i^{(t-1)} + f_t(\textbf{x})) + \Omega(f_t)$

xgboost的优化方法是需要用到泰勒二阶展开，要求损失函数 $l$ 具有二阶导数，泰勒公式如下
$f(x-x_0) = f(x_0) + (x - x_0)f^{\prime}(x_0) + \frac{(x-x_0)^2}{2}f^{\prime\prime}(x_0) + ...+ \frac{(x-x_0)^n}{n!}f^{n}(x_0)$