xgboost理论分析

数学工具构造器

已于 2022-05-22 20:51:47 修改

阅读量314

点赞数 1

文章标签：算法决策树机器学习

于 2021-01-28 18:21:57 首次发布

本文链接：https://blog.csdn.net/TQCAI666/article/details/113315358

版权

本文深入探讨了XGBoost的理论基础，包括损失函数、正则化项及其优化策略。通过分析XGBoost与GBDT的区别，揭示了XGBoost如何通过二阶导数直接优化损失函数，并介绍了决策树的分裂标准。文章还详细阐述了XGBoost算法的主要流程，从计算一阶和二阶导数到构建决策树的过程。

摘要由CSDN通过智能技术生成

本文CSDN

陈天奇PPT

XGBoost: A Scalable Tree Boosting System

刘建平： XGBoost算法原理小结

xgboost 实战以及源代码分析

Complete Guide to Parameter Tuning in XGBoost with codes in Python

Introduction to Boosted Trees

Can Gradient Boosting Learn Simple Arithmetic?

【机器学习】决策树（下）——XGBoost、LightGBM（非常详细）

史上最详细的XGBoost实战

华校专-Xgboost使用

LightGBM详解

在GBDT损失函数 $L\left(y, f_{t-1}(x)+h_{t}(x)\right)$ 的基础上，我们加入正则化项如下：

$\Omega\left(h_{t}\right)=\gamma J+\frac{\lambda}{2} \sum_{j=1}^{J} w_{t j}^{2}$

这里的 $J$ 是叶子节点的个数，而 $w_{tj}$ 是第 $j$ 个叶子节点的最优值。这里的 $w_{tj}$ 和我们GBDT里使用的 $w_{tj}$ 是一个意思，只是XGBoost的论文里用的是 $w$ 表示叶子区域的值，因此这里和论文保持一致。

最终XGBoost的损失函数可以表达为：

$L_{t}=\sum_{i=1}^{m} L\left(y_{i}, f_{t-1}\left(x_{i}\right)+h_{t}\left(x_{i}\right)\right)+\gamma J+\frac{\lambda}{2} \sum_{j=1}^{J} w_{t j}^{2}$

最终我们要极小化上面这个损失函数，得到第 $t$ 个决策树最优的所有 $J$ 个叶子节点区域和每个叶子节点区域的最优解 $w_{tj}$ 。XGBoost没有和GBDT一样去拟合泰勒展开式的一阶导数，而是期望直接基于损失函数的二阶泰勒展开式来求解。现在我们来看看这个损失函数的二阶泰勒展开式：

$\begin{aligned} L_{t} &=\sum_{i=1}^{m} L\left(y_{i}, f_{t-1}\left(x_{i}\right)+h_{t}\left(x_{i}\right)\right)+\gamma J+\frac{\lambda}{2} \sum_{j=1}^{J} w_{t j}^{2} \\ & \approx \sum_{i=1}^{m}\left(L\left(y_{i}, f_{t-1}\left(x_{i}\right)\right)+\frac{\partial L\left(y_{i}, f_{t-1}\left(x_{i}\right)\right.}{\partial f_{t-1}\left(x_{i}\right)} h_{t}\left(x_{i}\right)+\frac{1}{2} \frac{\partial^{2} L\left(y_{i}, f_{t-1}\left(x_{i}\right)\right.}{\partial f_{t-1}^{2}\left(x_{i}\right)} h_{t}^{2}\left(x_{i}\right)\right)+\gamma J+\frac{\lambda}{2} \sum_{j=1}^{J} w_{t j}^{2} \end{aligned}$