简单例子说明XGBoost中树模型的构建过程

置顶热爱生活的菇凉

已于 2024-04-23 11:10:50 修改

阅读量2.6k

点赞数 6

分类专栏：机器学习 XGBoost 文章标签： XGBoost 机器学习

于 2021-11-02 14:02:10 首次发布

本文链接：https://blog.csdn.net/frx_bwcx/article/details/121097282

版权

机器学习同时被 2 个专栏收录

4 篇文章 0 订阅

订阅专栏

XGBoost

2 篇文章 0 订阅

订阅专栏

文章目录

这里不再介绍XGBoost的原理及推导过程，推荐一些资料：

在构建树结构的过程会将涉及到的公式给出。
本文中的过程来源于视频XGBoost Part 1 (of 4): Regression – YouTube

如有错误，请指正，谢谢啦~

1. 数据集-回归问题

我们需要解决的是一个回归问题，数据如下表所示，NO是样本的编号，Drug Dosage 是特征，Drug Effective 是真实值。我们将根据这个数据集构建一个XGBoost模型。
在这里插入图片描述

2. 求一阶导数和二阶导数

这里采用的平方损失函数
在这里插入图片描述
注：后续需要用到 $G ain$ 的计算公式，并定义 $\; score (ss)$ ，同时将上面计算好的 $g_i$ 和 $h_i$ 带入 $ss$ 中，如下：

3. 构建树

初始化

设 $y_i^0 = 0.5$ ，并将样本点（实心圆）及预测值（黑色的粗线）画到二维坐标中。
在这里插入图片描述

残差
根据 $ss$ 的计算公式，其涉及到 $R es i d u a l$ ，所以我们将每个样本点的残差计算出来
寻找最优切分点
这里我们采用精确贪心算法进行切分

首先将特征值进行排序，这里只有一个特征，我们给出的顺序刚好是排序好的，即 10, 20, 25, 35
切分点选取的是相邻两个特征值的均值，所以此时我们有3个切分点，即15, 22.5, 30
接下来我们将会计算三个不同的切分得到的 $G ain$ 值，选择最大的 $G ain$ （增益）对应的切分点

接下来将计算3个切分点对应的增益，这里取 $\lambda=0$ .

$Dos a g e < 15$
图中红色的虚线是切分点

这里再提一下，根据 $G ain$ 的计算公式，我们只需要计算出每个结点的 $ss$ ，然后再进行相应的运算就可以得到 $G ain$ 了。

我们先计算根结点的 $ss$

在这里插入图片描述
接下来计算叶子结点，

然后计算以 $Dos a g e < 15$ 作为切分点时的 $G ain$

2. $Dos a g e < 22.5$
同样的计算方法

3. $Dos a g e < 30$

三个切分点的 $G ain$ 已经计算完成，大小关系如下：
$Gain_{15}=120.33 >Gain_{30}=56.33>Gain_{22.5}=4$