机器学习之决策树终极分类器：XGBoost

最新推荐文章于 2023-05-13 17:41:51 发布

薛定谔的程序喵

最新推荐文章于 2023-05-13 17:41:51 发布

阅读量646

点赞数

分类专栏：机器学习文章标签：决策树机器学习

本文链接：https://blog.csdn.net/anapple00/article/details/117001655

版权

机器学习专栏收录该内容

6 篇文章 0 订阅

订阅专栏

导读：
XGBoost被认为是各类赛事排名第一的算法
Ensenble是集成算法，分为两类：bagging和boosting
bagging：每个人都是专家（List of experts），容易过拟合；把多个拼接到一起，降低方差，即模型的稳定性
boosting：每个人都是普通人（List of weak learners），容易欠拟合

XGBoost

1.优势：

速度和表现可以超过大部分机器学习模型；
可以并行化计算
有大量可调节参数，例如 $\gamma$ ， $\lambda$

2.学习路径：

如何构造目标函数(Objective function)
如何近似目标函数(Objective function,优化，求最小/最大值)
如何引入树到目标函数，改造目标函数
如何使用贪心算法构造树

其中 从1到2使用了泰勒展开式

1.构造目标函数

假设有 $K$ 棵树：
$\hat{y_{i}} = \sum_{k=1}^{K}f_{k}(x_{i}), f_{k} \in \mathcal{F} \tag{1}$
目标函数：
$\sum_{i=1}^{n}l(y_{i},\hat{y_{i}})+ \sum_{k=1}^{K}\Omega(f_{k}) \tag{2}$

Additive Training

第零个树的预测值： $\hat{y_{i}}^{(0)} = 0$ ---------base case
第一个树的预测值： $\hat{y_{i}}^{(1)} = f_{1}(x_{i}) = \hat{y_{i}}^{(0)} + f_{1}(x_{i})$
第二个树的预测值： $\hat{y_{i}}^{(2)} = f_{1}(x_{i}) + f_{2}(x_{i}) = \hat{y_{i}}^{(1)} + f_{2}(x_{i})$
第三个树的预测值： $\hat{y_{i}}^{(3)} = f_{1}(x_{i}) + f_{2}(x_{i}) + f_{3}(x_{i}) = \hat{y_{i}}^{(2)} + f_{3}(x_{i})$
……
第t个树的预测值： $\hat{y_{i}}^{(t)} = \sum_{k=1}^{t}f_{k}(x_{i}) = \hat{y_{i}}^{(t-1)} + f_{t}(x_{i})$

训练第i棵树时，例如第2棵树 $f_{2}(x_{i})$ ，要拟合残差，即真实值和已有的预测之差： $y_{i} - \hat{y_{1}}^{(1)}$ 。

下面就是构造目标函数：
第 $t$ 轮的预测值为： $\hat{y_{t}}^{(t)} = \hat{y_{t}}^{(t-1)} + f_{t}(x_i)$ ，其中 $\hat{y_{t}}^{(t-1)}$ 为从第1…t-1棵树的预测结果，要训练第t棵树 $f_{t}(x_i)$ 使得最终总的预测值 $\hat{y_{t}}^{(t)}$ 与真实值 $y_{i}$ 之间的差距要尽可能的小。故我们可以根据这一点构造目标函数。

目标函数 $O b j$
$Obj^{(t)} = \sum_{i=1}^{n}l(y_{i},\hat{y}_{i}^{(t)}) + \sum_{i=1}^{t} \Omega(f_{i}) \\ = \sum_{i=1}^{n}l(y_{i},\hat{y}_{i}^{(t-1)} - f_{t}(x_i)) + \Omega(f_{t}) + constant \tag{3}$
第二项为每棵树的复杂度，即 $\sum_{i=1}^{t} \Omega(f_{i}) = \Omega_{1} + \Omega_{2} + \dots + \Omega_{t}$ ，其中前t-1棵树的复杂度已知，故可以看作常数，提出来。另外把 $t$ 时刻的预测值 $\hat{y_{t}}^{(t)}$ 的表达式代入上式，并考虑平方误差损失函数（Square Loss）, $l$ 变为：
$Obj^{(t)} = \sum_{i=1}^{n}\left(y_{i}-(\hat{y}_{i}^{(t-1)} - f_{t}(x_i))\right)^{2} + \Omega(f_{t}) + constant \tag{4}$
把所有不含 $f_{t}(x_i)$ 的项（因为都是已知项，例如 $y_{i}^{2}$ 、 $-2y_{i}\hat{y}_{i}^{(t-1)}$ 等等）都提出来，放到 $c o n s t a n t$ 里，得：
$Obj^{(t)} = \sum_{i=1}^{n}\left[2(\hat{y}_{i}^{(t-1)} - y_{i})f_{t}(x_i)+f_{t}(x_i)^{2}\right] + \Omega(f_{t}) + constant \tag{5}$
目标是最小化真实值 $y_{i}$ 和前 $t$ 棵树的预测 $\hat{y}_{i}^{(t)}$ 之差， $(5)$ 式只是演示一下当是回归问题时应该怎么变换，下面还是回到最开始的 $(3)$ 式。

2.近似目标函数

利用泰勒展开式：
$f(x+\Delta x) = f(x) + f^{\prime}(x)\Delta x + \frac{1}{2}f^{\prime\prime}(x)\Delta x^{2} + \cdots$
回到最开始的例子，即 $(3)$ 式：
$Obj^{(t)} = \sum_{i=1}^{n}l(y_{i},\hat{y}_{i}^{(t-1)} + f_{t}(x_i)) + \Omega(f_{t}) + constant$
把 $l(y_{i},\hat{y}_{i}^{(t-1)} )$ 看做 $f (x)$ ， $f_{t}(x_i)$ 看做 $\Delta x$ ，上式利用泰勒展开为：
$Obj^{(t)} = \sum_{i=1}^{n} \left[ l(y_{i},\hat{y}_{i}^{(t-1)}) + \partial_{\hat{y}^{(t-1)}}l(y_{i},\hat{y}_{i}^{(t-1)}) f_{t}(x_i) + \frac{1}{2}\partial_{\hat{y}^{(t-1)}}^{2}l(y_{i},\hat{y}_{i}^{(t-1)}) f_{t}^{2}(x_i) \right] + \Omega(f_{t}) + constant \tag{6}$
若把 $\partial_{\hat{y}_i^{(t-1)}} l(y_i,\hat{y}_i^{(t-1)})$ 看作 $g_i$ ，把 $\partial_{\hat{y}_i^{(t-1)}}^2 l(y_i,\hat{y}_i^{(t-1)})$ 看作 $h_i$ ，并把常数项放到constant里，上式变为
$Obj^{(t)} \simeq \sum_{i=1}^{n} [g_if_t(x_i) + \tfrac{1}{2}h_if_t^2(x_i)] + \Omega(f_t) + constant \tag{7}$
下面推导如何表达树的复杂度 $\Omega(f_{t})$

3.如何引入树到目标函数，改造目标函数

重新定义一棵树，采用结果导向，
$f_{t}(x) = \omega_{q(x)},\omega \in R^{T}, q: R^{d} \rightarrow \{1,2,...,T\}$
输入的x是一个object，可能是boy，可能是gril，也可能是old man，函数q返回的是一个index，例如下图，输入x=boy，q(boy) = 1，即男孩的下标是1，男孩输入第一个叶子节点。q(gril) = 2，即女孩的下标是2，女孩输入第二个叶子节点，而 $\omega$ 返回的是预测值。故 $\omega$ 和 $q$ 是需要学出来的。
在这里插入图片描述
一共有以下几个参数需要学习：
1.参数T，即T个叶子节点；
2. $\omega$ ，针对每个叶子节点的预测值，一个T维的向量；
3. $q$ ，给定一个object，返回一个index

下面要针对每棵树，找到3个参数的最优值。

树的复杂度
$\Omega(f_{t}) = \gamma T + \frac{1}{2}\sum_{j=1}^{T} \omega_{j}^{2}$
上式中第一项为叶子节点的个数， $\gamma$ 为此项权重，第二项为L2的正则， $\lambda$ 为此项权重，两项相加为该树的复杂度，希望复杂度是越小越好。
在这里插入图片描述
如上图所示，计算该树的复杂度 $\Omega$ ，此时T=3，因为是3个叶子节点，叶子节点1的得分 $\omega$ 是+2，平方是4；叶子节点2的得分 $\omega$ 是0.1，平方是0.01，叶子节点3的得分 $\omega$ 是-1，平方是1，将它们3个加起来，得到该树的复杂度

4.使用贪心算法构造树

回到最开始的目标函数， $(7)$ 式
$Obj^{(t)} \simeq \sum_{i=1}^{n} [g_if_t(x_i) + \tfrac{1}{2}h_if_t^2(x_i)] + \Omega(f_t) + constant \tag{7}$
其中 $g_{i} = \partial_{\hat{y}_i^{(t-1)}} l(y_i,\hat{y}_i^{(t-1)})$ ， $h_{i} = \partial_{\hat{y}_i^{(t-1)}}^2 l(y_i,\hat{y}_i^{(t-1)})$ ，分别代表一阶导数和二阶导数。

把 $(7)$ 式做如下变换，见下图所示
在这里插入图片描述
换一种定义的方式，按每个叶子节点中的元素集合可以定义为 $I_{j} = \{i|q(x_{i}) = j\}$ ，即把同一个叶子节点中的元素放到一起，例如 $I_{1} = \{1,3\}$ ， $I_{2} = \{2,5,6\}$ ， $I_{3} = \{7\}$ ， $I_{4} = \{4,8\}$
$Obj^{(t)} \simeq \sum_{i=1}^{n} \left[g_if_t(x_i) + \tfrac{1}{2}h_if_t^2(x_i) \right] + \Omega(f_t) \\ = \sum_{i=1}^{n} \left[g_i\omega_{q(x)} + \tfrac{1}{2}h_i \omega_{q(x)}^2 \right] + \gamma T + \frac{1}{2} \lambda \sum_{j = 1}^T \omega_j^2 \\ = \sum_{j=1}^{T} \left[(\sum_{i\in I_j}g_i)\omega_{j} + \tfrac{1}{2}(\sum_{i\in I_j}h_i + \lambda)\omega_{j}^2 \right] + \gamma T \tag{8}$
通过第二个等号可以看出，原来是按每个样本累加的，现在先处理一个节点中的元素，再进行相加。即上式为按每个独立的叶子节点相加的二次方程。

5.求解新的目标函数

目标函数变成了二次方优化问题，此时由公式可得
$argmin_{x} Gx+\dfrac{1}{2}Hx^2 \xlongequal{x=-\frac{b}{2a}} -\frac{G}{H},min_x \ Gx+\dfrac{1}{2}Hx^2=-\dfrac{1}{2}\dfrac{G^2}{H}$
其中 $argmin_{x}$ 表示当式子取值最小时此时的自变量x的取值，由二次方程求最小值公式可知，当 $-\frac{b}{2a}$ 时，此时式子有最小值。

定义 $G_j = \sum_{i\in I_j}g_i$ ， $H_j = \sum_{i\in I_j}h_i$ ， $(8)$ 式变为：
$\sum_{j=1}^{T} \left[G_j\omega_{j} + \tfrac{1}{2}(H_j + \lambda)\omega_{j}^2 \right] + \gamma T$
故最好的 $\omega_{j}^\star$ 和对应的损失函数值为：
$\omega_{j}^\star = -\dfrac{G_j}{H_j + \lambda}\quad Obj = -\dfrac{1}{2}\sum_{j = 1}^T \dfrac{G_{j}^2}{H_j + \lambda} + \gamma T \tag{9}$

6.叶子节点分裂方式

节点分裂的依据就可以参照上面的目标函数最终形式，来求分裂前后相差最大的特征，即最大化下式：
$\dfrac{1}{2}[\dfrac{G_{L}^2}{H_L + \lambda} + \dfrac{G_{R}^2}{H_R + \lambda} - \dfrac{(G_L + G_R)^2}{H_L + H_R + \lambda}] - \gamma$

薛定谔的程序喵

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
机器学习之决策树终极分类器：XGBoost

导读：XGBoost被认为是各类赛事排名第一的算法Ensenble是集成算法，分为两类：bagging和boostingbagging：每个人都是专家（List of experts），容易过拟合；把多个拼接到一起，降低方差，即模型的稳定性boosting：每个人都是普通人（List of weak learners），容易欠拟合XGBoost1.优势：Speed and Performance并行化有大量可调节参数2.学习路径：如何构造目标函数(Objective function
复制链接

扫一扫