精细解说机器学习模型：XGBoost模型

最新推荐文章于 2024-05-03 21:21:38 发布

剑雨星澄

最新推荐文章于 2024-05-03 21:21:38 发布

阅读量1.1k

点赞数

分类专栏：机器学习文章标签： XGBoost 机器学习

本文链接：https://blog.csdn.net/u013942370/article/details/102946008

版权

这篇应该是你见过的讲xgboost的文章里最细的。

简单介绍

首先需要介绍GBDT，它是一种基于boosting增强策略的加法模型，训练的时候采用前向分布算法进行贪婪的学习，每次迭代都学习一棵CART树来拟合之前 t-1 棵树的预测结果与训练样本真实值的残差。

在核心思想不变的情况下，XGBoost对GBDT进行了一系列优化，主要是损失函数进行了二阶泰勒展开，另外还有目标函数加入正则项、支持并行和默认缺失值处理等，在可扩展性和训练速度上有了巨大的提升。

模型核心思想

Boosting提升方法
使用二阶泰勒展开来近似拟合残差：相对于GBDT的一阶导数，XGBoost采用二阶泰勒展开，可以更为精准的逼近真实的损失函数
贪婪方法分裂节点

模型前提设定

训练数据集 $D=\{\left(x_i,y_i\right)\}_{i=1}^{n}$ ，其中 $x_i\in\mathbb{R}^m,y_i\in\mathbb{R}$ 。又有实例 $x$ 。

01 - 单棵决策树模型表示方法

假设某棵决策树有 $T$ 个叶子节点，则单棵决策树模型可记为：
$f(x)=w_{q(x)}$
其中 $q:\mathbb{R}^m\to \{1,\dots,T\}$ 是由输入 $x$ 向叶子节点编号的映射，其本质是树的分支结构；而 $w\in\mathbb{R}^T$ 是叶子权重向量。

树与权重向量

例如实例 $x$ 落在了决策树的第 $j$ 个节点，则其输出值即为 $w_j$ 的值。而叶子节点向量即为
$w=(w_1,\cdots,w_j,\cdots,w_T)$

02 - 加法模型结构

使用 $\text{Boosting}$ 思想，对于实例 $x$ ，总模型的预测输出为
$\hat{y}=\phi\left(x\right)=\sum_{k=1}^K f_k\left(x\right)$
其中， $f_k\left(x\right)$ 为第 $k$ 棵决策树。

核心生成原理

03 - XGBoost的正则化目标函数及其变量解释

$X G B o o s t$ 的正则化目标函数由损失函数和正则化项两部分组成，定义如下：
$L=\sum_{i=1}^nl(y_i,\hat y_i)+\sum_{k=1}^K \Omega(f_k)$
以下逐一解释各个参数：

$l$ 表示损失函数。由于模型将使用二阶泰勒展开，因此要求损失函数一阶和二阶可导。常见的损失函数有：
- 用于回归的平方损失函数： $l(y,\hat y)=(y-\hat y)^2$
- 用于分类的逻辑回归损失函数： $l(y,\hat y)=y\ln(1+e^{-\hat y})+(1-y)\ln(1+e^{\hat y})$
$\hat y_i$ 表示第 $i$ 个样本 $x_i$ 的预测值。作为加法模型，预测得分是每棵树打分的累加之和：
$\hat y_i=\sum_{k=1}^K f_k(x_i),f_k \in \mathcal F$
如上式，此模型中共有 $k$ 棵树， $f_k$ 为第 $k$ 棵树的函数（模型）。
$\Omega(f)$ 为单棵数的复杂度。模型将全部 $k$ 棵树的复杂度进行求和，添加到目标函数中作为正则化项，以防止模型过拟合：
$\sum_{k=1}^K \Omega(f_k)$

04 - 学习第 $t$ 棵树

假设在第 $t$ 轮，也是生成第 $t$ 棵树时，要训练的树模型为 $f_t$ ，则在第 $t$ 轮迭代后，实例 $x$ 的预测结果 $\hat y^{(t)}$ 为：
$\hat y^{(t)}=\sum_{k=1}^t f_k(x)=\hat y^{(t-1)}+f_t(x)$
公式中 $\hat y^{(t-1)}$ 为前 $t - 1$ 棵树的预测结果。

注意，在第 $t$ 轮迭代时，前 $t - 1$ 棵树已知，因此 $\hat y^{(t-1)}$ 也是一个已知常量。

将上式代入模型的基本目标函数，得到第 $t$ 轮的目标函数为
$\begin{aligned} L^{(t)} &=\sum_{i=1}^{n} l\left(y_{i}, \hat{y}_{i}^{(t)}\right)+\sum_{k=1}^{t} \Omega\left(f_{k}\right) \\ & = \sum_{i=1}^{n} l\left(y_{i}, \hat{y}_{i}^{(t-1)}+f_{t}\left(x_{i}\right)\right)+\Omega\left(f_{t}\right)+\text { constant } \end{aligned}$

最低0.47元/天解锁文章

剑雨星澄

关注

0
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
精细解说机器学习模型：XGBoost模型

这篇应该是你见过的讲xgboost的文章里最细的。简单介绍首先需要介绍GBDT，它是一种基于boosting增强策略的加法模型，训练的时候采用前向分布算法进行贪婪的学习，每次迭代都学习一棵CART树来拟合之前 t-1 棵树的预测结果与训练样本真实值的残差。在核心思想不变的情况下，XGBoost对GBDT进行了一系列优化，主要是损失函数进行了二阶泰勒展开，另外还有目标函数加入正则项、支持并行和...
复制链接

扫一扫