机器学习：决策树与集成学习 3

latency_

已于 2022-05-10 19:30:46 修改

阅读量145

点赞数

分类专栏：机器学习集成学习文章标签：机器学习决策树

于 2021-05-14 23:28:19 首次发布

本文链接：https://blog.csdn.net/qq_39802199/article/details/116810049

版权

机器学习同时被 2 个专栏收录

13 篇文章 0 订阅

订阅专栏

集成学习

2 篇文章 0 订阅

订阅专栏

本文详细介绍了XGBoost和LightGBM两种梯度提升树模型。XGBoost通过优化目标函数，引入正则化项控制模型复杂度，利用二阶泰勒展开加速计算。LightGBM则以其快速训练和低内存占用成为另一种优选。两者在GBDT基础上进行了工程实现上的改进，适用于不同的应用场景。

摘要由CSDN通过智能技术生成

XGBoost

XGBoost是大规模并行的boosting tree的工具，由陈天奇等人在2016年发布。
XGBoost是GBDT的工程实现，在解决问题的方法上有一定的差异，其最大的不同在于目标函数的定义。

首先，XGBoost的模型预测值还是：
$\hat{y}_i=\sum_{k=1}^{K}f_k(x_i)$

损失函数表示为：
$l(\hat{y},y)=\sum_{i}l(\hat{y}_i,y_i)$
注意，损失函数是指模型输出与真实值之间的偏差，目标函数有损失函数和正则化项组成，是最终的优化目标。

XGBoost中，模型的目标函数定义为：
$L(\phi)=\sum_{i}l(\hat{y}_i,y_i)+\sum_{k}\Omega(f_k)$
其中， $\Omega(f)=\gamma{T}+\frac{1}{2}\lambda||\omega||^2$ 是一个正则化项，主要作用是用来控制模型的复杂度，进而应该能够达到控制模型的方差的目的，后面我们会对这个正则化项进行详细介绍。

XGBoost是属于boosting家族的成员，让我们回到梯度提升树本身，先看XGBoost在第t轮模型得到的输出：
$\hat{y}_i^{(t)}=\hat{y}_i^{(t-1)}+f_t(x_i)$
这里的 $\hat{y}_i^{(t-1)}$ 在进行训练第t轮的模型 $f_t$ 时是已经固定的，训练第t个基模型时的目标函数为：
$L^{(t)}=\sum_il(y_i,\hat{y}_i^{(t-1)}+f_t(x_i))+\Omega(f_t)$ ------------(1)
XGBoost优化这个目标函数与Adaboost和GBDT都有一些不同，下面进行具体介绍,记住我们的目标，找到最优的 $f_t$ .

下面我们要对这个目标函数使用到二阶泰勒展式，这也是XGBoost在进行优化时与GBDT最大的不同之一。首先我们先来回顾一下函数 $f (x)$ 在 $x_0$ 处的 $n$ 阶泰勒展式：
$f(x)=\sum_{i=0}^{n}\frac{f^{(i)}(x_0)}{i!}(x-x_0)^i)+R_n(x)$
$f(x+\Delta{x})$ 在点 $x$ 处的二阶泰勒展开为：
$f(x+\Delta{x})=f(x)+f^{'}(x)\Delta{x}+\frac{1}{2}f^{''}(x)\Delta{x}^2$

进一步，我们对上面的损失函数进行进行二阶泰勒展开：
$L^{(t)}\simeq\sum_{i=1}^{n}[l(y_i,\hat{y}_i^{(t-1)})+g_if_t(x_i)+\frac{1}{2}h_if_t^{2}(x_i)] +\sum_{i=1}^{t}\Omega(f_i)$ -----(2)
其中， $g_i, h_i$ 分别表示损失函数 $l(y_i,\hat{y}_i^{(t-1)}$ 对 $\hat{y}_i^{(t-1)}$ 的一阶导数和二阶导数。并且要注意公式 (1) 和公式 (2) 中损失函数的区别，以回归问题中的平方损失函数为例：
$l(y_i,\hat{y}_i^{(t-1)})=\sum_{i=1}^{n}(y_i-\hat{y}_i^{(t-1)})^2$
$g_i=\frac{\partial(y_i-\hat{y}_i^{(t-1)})^2}{\partial\hat{y}_i^{(t-1)}}=2(y_i-\hat{y}_i^{(t-1)})$
$h_i=\frac{\partial^2(y_i-\hat{y}_i^{(t-1)})^2}{\partial(\hat{y}_i^{(t-1)})^2}=2$
因此，我们在进行第 t 轮迭代优化时，最重要的就是要求出目标函数对 $\hat{y}_i^{(t-1)}$ 的一阶和二阶偏导数 $g_i, h_i$ 。并且第 t 轮迭代时，公式(2)中的 $l(y_i,\hat{y}_i^{(t-1)})$ 是一个常数，并不参与优化计算过程。

下面，我们再来看目标函数中的正则化项，XGBoost 相较于GBDT的一个不同就是XBGoost中显式的引入了这个正则化项用于控制模型的复杂度。具体的，这个正则化项表示为：
$\Omega(f_t)=\gamma{T}+\frac{1}{2}\lambda\sum_{j=1}^{T}W_j^2$
其中，T是叶子节点的个数，代表了模型的复杂度，叶子个数越少，模型越简单。
我们用 $q (x)$ 表示样本所在的节点， $w (q)$ 表示叶子节点的取值， $w_{q(x)}$ 表示每个样本的取值（预测值）， $I_j$ 表示第j个叶子节点的样本集合。
进一步，我们将公式（2）表示为：
$L^{(t)}=\sum_{i=1}^{n}(g_if_t(x_i)+\frac{1}{2}h_if_t^2(x_i))+\Omega(f_t)$ --------(3)
$=\sum_{i=1}^{n}(g_iw_q(x_i) + \frac{1}{2}h_iw_q^2(x_i))+\gamma{T}+\frac{1}{2}\lambda\sum_{j=1}^{T}W_j^2$ --------(4)
$=\sum_{j=1}^{T}[(\sum_{i\in{I_j}}g_i)w_i+\frac{1}{2}((\sum_{i\in{I_j}}h_i)+\lambda)w_j^2]+\gamma{T}$ ----------(5)
$=\sum_{j=1}^{T}[G_jw_i+\frac{1}{2}(H_j+\lambda)w_j^2]+\gamma{T}$ -----------(6)
基于式（4）遍历所有样本后，求每个哎呀你根本的损失函数，与公式（5）中遍历每个叶子节点的样本并计算损失函数是等价的。
公式（6）中， $G_j, H_j$ 是前 t-1 步得到的结果，视为常数，只有最后一棵树的节点 $w_j$ 是不确定的，那么将目标函数对 $w_j$ 求一阶导数，即我们要优化更新的就是这个 $w_j$ 。
$\frac{\partial{L^{(t)}}}{\partial{w_j}}=\sum_{j=1}^{T}[G_jw_i+\frac{1}{2}(H_j+\lambda)w_j^2]=0$
进一步可以得到：
$w_j^{*}=-\frac{G_j}{H_j+\lambda}$ ----------(7)
公式（7）代入到公式（6）中得到：
$L^{(t)}=\sum_{j=1}^{T}[G_j\frac{-G_j}{H_j+\lambda}+\frac{1}{2}(H_j+\lambda\frac{-G_j^2}{(H_j+\lambda)^2})]+\gamma T$
$\sum_{j=1}^{T}=[-\frac{G_j^2}{H_j+\lambda}+\frac{1}{2}\frac{-G_j^2}{H_j+\lambda}]+\gamma T$
$=-\frac{1}{2}\sum_{j=1}^{T}\frac{G_j^2}{H_j+\lambda}+\gamma T$
这就是XGBoost中我们最终要优化的目标函数，也就是第 t 棵树的评估标准。