XGBoost之回归算法

blinkyou001

已于 2024-03-14 22:09:26 修改

阅读量1.1w

点赞数 61

分类专栏：机器学习文章标签：回归算法机器学习

于 2024-01-28 14:00:26 首次发布

本文链接：https://blog.csdn.net/blinkyou001/article/details/135820250

版权

本文介绍了XGBoost算法，它是基于GBDT的增强版本，通过二阶泰勒展开优化损失函数，增加正则项防止过拟合。文章详细讲解了目标函数、树的生成过程以及在回归任务中的应用，包括贪心和近似算法，以及算法的实现和特点。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1 XGBoost算法简介

XGBoost(Extreme Gradient Boosting)算法是陈天奇博士于2016年发表的论文《 XGBoost：A Scalable Tree Boosting System》中正式提出的。XGBoost在GBDT算法的基础上作出了一系列的优化，如在损失函数的计算中增加了二阶导数，增加了正则项，一定程度上的并行计算等。

XGBoost算法在机器学习中有着广泛的应用，在机器学习大赛中有着不错的表现。

XGBoost算法支持回归算法与分类算法。本文介绍其中的回归算法。

2 关于目标函数

2.1 损失函数

以 $f_{t}(x)$ 表示第 $t$ 轮预测值， $w_{t}(x)$ 表示第 $t$ 棵树在样本 $x$ 处的取值（权重）， $L(y,f_{t}(x))$ 表示第 $t$ 轮的损失函数，损失函数 $L(y,f_{t}(x))$ 二阶可导。

将 $L(y,f_{t}(x))$ 二阶泰勒展开：

$L(y,f_{t}(x))=L(y,f_{t-1}(x)+w_{t}(x))=L(y,f_{t-1}(x))+\frac{\partial L(y,f(x))}{\partial f(x)}|_{f(x)=f_{t-1}(x)}w_{t}(x)+\frac{\partial^2 L(y,f(x))}{2\partial f^2(x)}|_{f(x)=f_{t-1}(x)}w_{t}^{2}(x)+constant$

记 $g_{t}=\frac{\partial L(y,f(x))}{\partial f(x)}|_{f(x)=f_{t-1}(x)}$ ， $h_{t}=\frac{\partial^2 L(y,f(x))}{\partial f^2(x)}|_{f(x)=f_{t-1}(x)}$

2.2 目标函数

针对样本构造目标函数，在第 $t$ 轮时，

$Obj=\sum_{i=1}^{N}L(y_{i},f_{t}(x_{i}))$

$=\sum_{i=1}^{N}(L(y_{i},f_{t-1}(x_{i}))+\frac{\partial L(y_{i},f(x))}{\partial f(x)}|_{f(x)=f_{t-1}(x_{i})}w_{t}(x_{i})+\frac{\partial^2 L(y_{i},f(x))}{2\partial f^2(x)}|_{f(x)=f_{t-1}(x_{i})}w_{t}^{2}(x_{i})+constant)$