XGBoost、lightGBM

最新推荐文章于 2024-07-06 19:05:11 发布

zhaohui24

最新推荐文章于 2024-07-06 19:05:11 发布

阅读量200

点赞数

分类专栏：机器学习文章标签：机器学习

本文链接：https://blog.csdn.net/weixin_31948131/article/details/118358886

版权

机器学习专栏收录该内容

7 篇文章 0 订阅

订阅专栏

1. 文章

《XGBoost: A Scalable Tree Boosting System》

Tianqi Chen 等，单位：University of Washington， KDD2016

《LightGBM: A Highly Efficient Gradient Boosting Decision Tree》

Guolin Ke 等，单位：Microsoft， NIPS2017

2. Bagging

Bagging 通过集成的方式来提高模型的稳定性。好比买股票倾向多买几只不同的股票来降低风险。

2.1 随机森林

随机森林是 Bagging 最经典的一个模型种类。随机森林通过多棵决策树共同做决策。

在这里插入图片描述

Bagging 的流程

2.2 Bagging vs Boosting

Bagging：Leverages unstable base learners that are weak because of overfitting.

Boosting：Leverages stable base learners that are weak because of underfitting.

2.3 提升树

给定一个预测问题，已经在此数据上训练出了一个模型- Model1，但效果不好，误差比较大。问题：如果只能接受去使用这个模型-Model1，但不能做任何改变，接下来如何去做？

基于残差的训练

在这里插入图片描述

3. Boosting

XGBoost 优点：

算法可以并行，训练效率高
比起其他的算法，实际效果好
由于可控参数多，可以灵活调整

学习路径
在这里插入图片描述

3.1 目标函数构建

假设已经训练好了 K 棵树，则对于第 $i$ 个样本的（最终）预测值为：
$\widehat{y}_{i}=\sum_{k=1}^{K} f_{k}\left(x_{i}\right), f_{k} \in \mathcal{F}$

目标函数
在这里插入图片描述
$y_i$ ：真实值， $\hat{y_i}$ ：预测值； $\Omega()$ ：相当于惩罚项，正则化。

3.1.1 叠加式训练 Additive Training

在这里插入图片描述
给定一个样本 $x_i$ ，假定第0 棵树的预测值 ${\hat{y_i}}^{(0)}$ ，作为 Default case， ${\hat{y_i}}^{(0)}=0$ ，有

$\begin{aligned} &\hat{y}_{i}^{(0)}=0 \leftarrow \text { Default case} \\ &\hat{y}_{i}^{(1)}=f_{1}\left(x_{i}\right)=\hat{y}_{i}^{(0)}+f_{1}\left(x_{i}\right) \\ &\hat{y}_{i}^{(2)}=f_{1}\left(x_{i}\right)+f_{2}\left(x_{i}\right)=\hat{y}_{i}^{(1)}+f_{2}\left(x_{i}\right) \\ &\qquad \vdots \\ &\hat{y}_{i}^{(k)}=f_{1}\left(x_{i}\right)+f_{2}\left(x_{i}\right)\cdots+f_{k}\left(x_{i}\right)=\sum_{i=1}^Kf_k(x_i)=\hat{y}_{i}^{(k-1)}+f_{k}\left(x_{i}\right) \tag{1} \end{aligned}$

已知前 $k - 1$ 棵树的预测值 $\hat{y}_{i}^{(k-1)}$ ，训练第 $k$ 棵树。

损失函数记为 $l(y,\hat{y_i})$ ，共有 $n$ 个样本 $x_i, i=1...n)$ ，共 $K$ 棵树。

$\begin{aligned} O b j &=\sum_{i=1}^{n} l\left(y_{i}, \hat{y}_{i}^{(k)}\right)+\sum_{k=1}^{K} \Omega\left(f_{k}\right) \\ &=\sum_{i=1}^{n} l\left(y_{i}, \hat{y}_{i}^{(k-1)}+f_{k}(x_i)\right)+\sum_{k=1}^{K} \Omega\left(f_{k}\right)+\Omega(f_k) \\ &=\sum_{i=1}^{n} l\left(y_{i}, \hat{y}_{i}^{(k-1)}+f_{k}(x_i)\right)+\Omega(f_k) \tag{2} \end{aligned}$

当训练第 $k$ 棵树时，前 $k - 1$ 棵树已经训练好了， $\sum_{k=1}^{K} \Omega\left(f_{k}\right)$ 可看成常数项（省略）， $\hat{y}_{i}^{(k-1)}$ 也可看成常数项，但保留。 $y_i$ 为真实值， $f_k(x_i)$ 为第 $k$ 棵树的预测值， $\Omega(f_k)$ 为第 $k$ 棵树的复杂度，目标是对 $o b j$ 进行最小化。

3.2 使用泰勒级数近似目标函数

如果 $f (x)$ 在点 $x=x_0$ 具有任意阶导数，则幂级数
$\sum_{n=0}^{\infty} \frac{f^{(n)}\left(x_{0}\right)}{n !}\left(x-x_{0}\right)^{n}=f\left(x_{0}\right)+f^{\prime}\left(x_{0}\right)\left(x-x_{0}\right)+\frac{f^{\prime \prime}\left(x_{0}\right)}{2 !}\left(x-x_{0}\right)^{2}+\cdots+\frac{f^{(n)}\left(x_{0}\right)}{n !}\left(x-x_{0}\right)^{n}+\cdots$

称为 $f (x)$ 在点 $x_0$ 处的 泰勒级数。

目标函数：
$\begin{aligned} &o b j_{k}=\sum_{i=1}^{n} l\left(y_{i}, \hat{y}_{i}^{(k-1)}+f_{k}\left(x_{i}\right)\right)+\Omega\left(f_{k}\right) \\ &\quad\Rightarrow f(x+\Delta x) \approx f(x)+f^{\prime}(x) \cdot \Delta x+\frac{1}{2} f^{\prime \prime}(x) \cdot \Delta x^{2} \quad Taylor Expansion \\ &\quad\Rightarrow 令 \quad x = \hat{y}_{i}^{(k-1)}, \qquad\Delta x = f_{k}(x_i) \\ &f(x)=l\left(y_{i}, \hat{y}_{i}^{(k-1)}\right), \qquad f(x+\Delta x)=l\left(y_{i}, \hat{y}_{i}^{(k-1)}+f_{k}(x_i)\right) \tag{3} \end{aligned}$

$\begin{aligned} o b j_{k}&=\sum_{i=1}^{n} l\left(y_{i}, \hat{y}_{i}^{(k-1)}+f_{k}\left(x_{i}\right)\right)+\Omega\left(f_{k}\right) \\ &=\sum_{i=1}^{n}\left[ \underline{l\left(y_i, \hat{y_i}^{(k-1)}\right)} + \underline{\partial_{\hat{y_{i}}^{(x-1)}} l\left(y_{i}, \hat{y_{i}}^{(x-1)}\right)} \cdot f_{k}(x_i) + \frac{1}{2} \underline{ \partial_{\hat{y}_{i}^{(x-1)}}^{2} l\left(y_{i}, \hat{y}_{i}^{(x-1)}\right)} \cdot f_{k}^{2}\left(x_i\right) \right] +\Omega\ (f_{k}) \\ &=\sum_{i=1}^{n} \left[ \underline{l\left(y_i, \hat{y_i}^{(k-1)}\right)} + \underline{ g_i} \cdot f_{k}(x_i) + \frac{1}{2} \underline{h_i} \cdot f_{k}^{2}\left(x_i\right) \right] +\Omega\ (f_{k}) \\ \tag{4} \end{aligned}$

当训练第 $k$ 棵树时，目标函数 $min\left(\sum_{i=1}^{n} \left[ g_i \cdot f_{k}(x_i) + \frac{1}{2} h_i \cdot f_{k}^{2}\left(x_i\right) \right] +\Omega\ (f_{k}) \right)$ ， ${h_i, g_i}$ 是已知的， $l\left(y_i, \hat{y_i}^{(k-1)}\right)$ 为常数，省略。

3.3 树结构的参数化

在这里插入图片描述

对上面树结构进行简要的变换，
$\begin{aligned} g_i \cdot f_{k}(x_i)&=g_i \cdot w_{q}(x_i) \\ &=g_1\cdot w_{q}(x_1) +g_3\cdot w_{q}(x_3)+g_4\cdot w_{q}(x_4)+g_2\cdot w_{q}(x_2)+g_5\cdot w_{q}(x_5) \\ &=(g_1+g_3) \cdot w_1+g_4\cdot w_2+(g_2+g_5)\cdot w_3 \\ &=\sum_{i \in {I_1}}g_i \cdot w_1 + \sum_{i \in {I_2}}g_i \cdot w_2 + \sum_{i \in {I_3}}g_i \cdot w_3 \tag{5} \end{aligned}$

新的目标函数：
$\begin{aligned} &\sum_{i=1}^{n} \left[ g_i \cdot f_{k}(x_i) + \frac{1}{2} h_i \cdot f_{k}^{2}\left(x_i\right) \right] +\Omega\ (f_{k}) \\ =&\sum_{i=1}^{n} \left[ g_i \cdot f_{k}(x_i) + \frac{1}{2} h_i \cdot f_{k}^{2}\left(x_i\right) \right] +\gamma T+\frac{1}{2}\lambda \sum_{j=1}^T w_j^2 \\ =&\sum_{j=1}^{T} \left[ \underline{\sum_{i \in {I_j}}g_i }\cdot w_j + \frac{1}{2} \left( \underline{\sum_{i \in {I_j}} h_i}+\lambda \right) \cdot w_j^2 \right] +\gamma T \qquad \underline{常数替换} \\ =&\sum_{j=1}^{T} \left[ G_j\cdot w_j + \frac{1}{2} (H_j +\lambda) \cdot w_j^2 \right] +\gamma T \\ \Rightarrow& \quad \sim \quad bw_j+\frac{1}{2} aw_j^2+c \quad \sim \quad ax^2+bx+c \quad\Rightarrow x=-\frac{b}{2a}取最值 \\ \Rightarrow& \quad w_j = -\frac{G_j}{H_j+\lambda} \qquad 代入 \\ =&\sum_{j=1}^{T}\left(-\frac{G_{j}^{2}}{H_{j}+\lambda}+\frac{1}{2} \frac{G_{j}^{2}}{H_{j}+\lambda}\right)+\gamma T \\ =& -\frac{1}{2} \sum_{j=1}^{T}\left(\frac{G_{j}^{2}}{H_{j}+\lambda}\right)+\gamma T \tag{6} \end{aligned}$

计算目标函数例子

在这里插入图片描述
$\begin{aligned} &obj = -\frac{1}{2} \sum_{j=1}^{T}\left(\frac{G_{j}^{2}}{H_{j}+\lambda}\right)+\gamma T \\ &obj_{old} = -\frac{1}{2} \left[ \frac{(g_1+g_3+g_4)^2}{h_1+h_3+h_4+\lambda} + \frac{(g_2+g_5)^2}{h_2+h_5+\lambda}\right] +\gamma \cdot 2 \\ &obj_{new} = -\frac{1}{2} \left[ \frac{(g_1+g_3)^2}{h_1+h_3+\lambda} +\frac{g_4^2}{h_4+\lambda} + \frac{(g_2+g_5)^2}{h_2+h_5+\lambda}\right] +\gamma \cdot 3 \\ &max(obj_{old}-obj_{new}) =\frac{1}{2}\left[\frac{G_{L}^{2}}{H_{L}+\lambda}+\frac{G_{R}^{2}}{H_{R}+\lambda}-\frac{\left(G_{L}+G_{R}\right)^{2}}{H_{L}+H_{R}+\lambda}\right]-\gamma \\ &\Rightarrow \quad G_L=g_1+g_3, \quad G_R=g_4, \quad H_L=h_1+h_3,\quad H_R=h_4 \tag{7} \end{aligned}$

3.3.1 学习策略-确定树结构

采用贪心算法，每次尝试分裂一个叶节点，计算分裂后的增益，选择增益最大的。类似于在ID3中的信息增益，和CART树中的基尼指数，XGBoost中损失函数如上图中obj所示。

其中红色部分衡量了叶子节点对总体损失的贡献，目标函数越小越好，则红色部分越大越好，在XGBoost中增益计算方式如上图中Gain所示，Gain值越大，说明分裂后能使目标函数减小的越多，也就是越好。

4. LightGBM

参考链接 - 网易云课堂 - 唐国梁Tommy - 最牛机器学习算法 lightGBM

4.1 XGBoost

核心思想： 1️⃣首先对所有都按照特征的数值进行预排序，2️⃣ 其次在遍历分割点的时候用O(#Data)的代价找到一个特征上的最好分割点，3️⃣ 最后在找到一个特征的最好分割点后，将数据分裂成左右子节点。

优缺点：优点：能精确的找到分割点。缺点：空间消耗大；1️⃣算法需要保存数据的特征值，还保存了特征排序的结果，2️⃣ 在遍历每一个分割点的时候，都需要进行分裂增益的计算，消耗的代价大。

4.2 lightGBM 算法核心

4.2.1 基于Histogram的决策树算法

原理：将连续的浮点特征离散成 k 个整数，并构造宽度为 k 的 Histogram，然后遍历训练数据，统计每个离散值在直方图中的累计统计量。在进行特征选择时，只需要根据直方图的离散值，遍历寻找最优的分割点。
在这里插入图片描述

优点： 1️⃣占用内存更低，数据分隔的复杂度更低， 2️⃣ 用8位整型存储，内存消耗为原来的 $\frac{1}{8}$ ，3️⃣ 时间上的开销由原来的O(data * #features)降到O(k * #features)。

4.2.2 直方图做差加速

原理：1️⃣一个叶子节点的Histogram可以直接由父节点的Histogram和兄弟节点的Histogram做差得到。

在这里插入图片描述
2️⃣ 通常构造直方图，需要遍历该叶子上的所有数据，但直方图做差仅需遍历直方图的K个桶。

4.2.3 带深度限制的 Leaf-wise 的叶子生长策略

原理：每次从当前所有叶子中找到分裂增益最大（一般也是数据量最大）的一个叶子，然后分裂、如此循环。

在这里插入图片描述
优缺点：优点：同level-wise相比，在分裂次数相同的情况下，leaf-wise可以降低更多的误差，得到更好的精度。缺点：可能会长出比较深的决策树，产生过拟合。

4.2.4 单边梯度采样 Gradient-based One-Side Sampling(GOSS)

原理：GOSS算法从减少样本的角度出发，排除大部分小梯度的样本，仅用剩下的样本计算信息增益，它是一种在减少数据量和保证精度上平衡的算法。

算法流程：1️⃣GOSS首先将要进行分裂的特征的所有取值按照绝对值大小降序排序（XGBoost 一样也进行了排序，但是lightGBM不用保存排序后的结果），选取绝对值最大的 $100\%$ 个数据。

2️⃣ 然后在剩下的较小梯度数据中随机选择 $100\%$ 个数据。

3️⃣ 接着将这 $100\%$ 个数据乘以一个常数 $\frac{1-a}{b}$ ，这样算法就会更关注训练不足的样本，而不会过多改变原数据集的分布。

4️⃣ 最后使用这 $(a+b)*100\%$ 个数据来计算信息增益。

4.2.5 互斥特征捆绑 Exclusive Feature Bunding (EFB)

背景：高纬度的数据往往是稀疏的，这种稀疏性启发我们设计一种无损的方法来减少特征的维度。

算法步骤：① 将特征按照非零值的个数进行排序，② 计算不同特征之间的冲突比率，③ 遍历每个特征并尝试合并特征、使冲突比率最小化。

时间复杂度：直方图时间复杂度从O(data * #features)降到O(k * #bundle)，由于 $\#buddle << \#feature$ ，能够极大地加速 GBDT的训练过程而且未损失精度。

优点：EFB算法能够将许多互斥的特征变为低维稠密的特征，就能够有效的避免不必要 0 值特征的计算。

4.2.6 支持类别特征 (Categorical Feature)

原理：lightGBM采用了many vs many的切分方法，实现了类别特征的最优切分。

算法流程：1️⃣在枚举分割点之前，先把直方图按每个类别的label均值进行排序，2️⃣ 按照排序的结果依次枚举最优分割点。

在这里插入图片描述

4.2.7 多线程优化

lightGBM 原生支持并行学习，目前支持 特征并行、数据并行、投票并行。

特征并行，原理：不同机器在不同特征集合上分别寻找最优的分割点，然后在机器间同步最优的分割点。
在这里插入图片描述 3台机器，6个特征；1和2特征→1号机器… 分别找最优特征，再进行整合。
lightGBM 不进行数据垂直划分，而是在每台机器上保持全部的训练数据，在得到最佳划分方案后可在本地执行划分而减少了不必要的通信。