GBDT & XGBoost

最新推荐文章于 2024-08-18 19:53:43 发布

花繁四季

最新推荐文章于 2024-08-18 19:53:43 发布

阅读量163

点赞数

分类专栏：机器学习文章标签：机器学习算法 boost 决策树

本文链接：https://blog.csdn.net/qq_43221336/article/details/115802740

版权

机器学习专栏收录该内容

1 篇文章 0 订阅

订阅专栏

1. GBDT

1.1 算法介绍

GBDT（Gradient Boosting Decision Tree，梯度提升决策树）是boosting类型的机器学习算法，是传统机器学习算法中对真实分布拟合最好的几种之一，既可以用于分类也可以用于回归，可以筛选特征
GBDT采用加法模型（基函数的线性组合），通过不断减小训练过程产生的残差来达到数据的分类或回归

1.2 GBDT训练过程

GBDT通过多轮迭代，每轮迭代产生一个弱分类器，每个分类器在上一轮分类器的残差基础上进行训练
对弱分类器的要求一般是足够简单、低方差、高偏差，因为训练的过程是通过降低偏差来不断提高最终分类器的精度，一般默认选择CART树（二叉树）
GBDT特征选择的过程就是CART树生成的过程，原始的GBDT会遍历所有特征和每个特征所有可能的切分点，从而找到最优的分类

在这里插入图片描述
1.3 公式表述
具体来说，假设有训练样本 $\{x^{(i)},y^{(i)}\},i=1,\cdots,m$ ，第 $r - 1$ 步获得的集成学习器为 $F_{r-1}(x)$ ，那么GBDT将通过下面的递推式，获得一个新的弱学习器 $h_{r}(x)$ ： $h_{r}(x)=\argmin_{h\in H}\sum_{i=1}^mL(y^{(i)},F_{r-1}(x^{(i)})+h(x^{(i)}))$ 其中 $H$ 代表整个函数空间，但是想在函数空间中直接得到最小化损失函数对应的 $h_{r}(x)$ 是不现实的，于是使用梯度下降法来减小损失函数。

梯度下降法中，向量移动的方向应为损失函数的负梯度方向，这样若使用训练集 $\begin{Bmatrix}x^{(i)},-\cfrac{\partial L(y^{(i)},F_{r-1}(x^{(i)}))}{\partial F_{r-1}(x^{(i)})}\end{Bmatrix}_{i=1}^m$ 去训练 $h_{r}(x)$ ，就相当于朝着损失函数减小的方向走了一步。第 $r$ 步获得的集成学习器为 $F_{r}(x)$ 为： $F_r(x)=F_{r-1}(x)+h_{r}(x)$ GBDT本质上还是梯度下降法，每一步通过学习一颗拟合负梯度的树（残差树），来使得损失函数逐渐减小。最终的GBDT模型可用公式表示为： $F(x)=\sum_{r=1}^RT(x;\theta_r)$ 式中， $T(x;\theta_r)$ 表示决策树； $\theta_r$ 为决策树的参数； $R$ 为树的个数，也是训练的次数。

1.4 GBDT用于分类
GBDT无论用于分类还是回归都使用CART回归树，不会因为任务是分类就使用分类树。因为GBDT每轮的训练是在上一轮的训练的残差基础之上进行训练的，这就要求每轮迭代时，弱分类器的输出的结果相减是有意义的。GBDT用于回归问题时，损失函数一般用平方差损失函数，过程较为直观，不做详细说明。

GBDT分类模型可以表达为： $P(y=1|x)=\cfrac{1}{1+e^{-F_r(x)}}$ 其中 $F_r(x)$ 为第 $r$ 步迭代之后的集成学习器。损失函数 $L$ 可用交叉熵表示，由逻辑回归的结论可知，交叉熵损失函数的负梯度为： $-\cfrac{\partial L}{\partial F_r(x)}=y-\hat{y}$ 用于第 $r + 1$ 步基学习器的训练。

GBDT进行多分类算法流程如下：

输入：待分类类别数 $K$ ，训练数据集 $\{x^{(i)}\in R^n|i=1,2,\cdots,m\}$ ，训练数据集对应的分类标签 $\{y^{(i)}\in R^K|i=1,2,\cdots,m\}$ ，其中 $n$ 为数据特征维度， $m$ 为数据集大小， $y^{(i)}$ 只有一项值为1，其余项均为0
第一步：根据待分类类别数，同时训练 $K$ 颗CART回归树。数据 $x^{(i)}$ 对应第 $j$ 颗树的真实值记为 $y^{(i)}_{j,1}$ ，对应向量 $y^{(i)}$ 中的第 $j$ 个值，在训练完成后的回归树上的输出值记为 $\hat{y}^{(i)}_{j,1}$
第二步：将第一批训练得到的 $K$ 颗树作为第一个弱分类器，每棵树的残差作为下一批树的真实值。对于第 $r$ 个弱分类器而言，有： $y^{(i)}_{j,r}=y^{(i)}_{j,r-1}-\hat{y}^{(i)}_{j,r-1}$ 共训练 $R$ 轮，得到 $R$ 个弱分类器，共 $R\times K$ 颗树
shrinkage步：对每轮学习得到的分类器 $h_r(x)$ ，都通过最小化损失函数的方式找到该分类器的最优权重 $\rho_r=\argmin_{\rho}L(x,y|F_{r-1}(x)+\rho h_r(x))$ 这轮迭代后的集成学习器为 $F_r(x)=F_{r-1}(x)+\alpha\rho_r h_r(x)$ 其中 $\alpha$ 为学习率
分类：将待分类数据输入 $R$ 个弱分类器中，各分类器中对应的树结果相加，共得到 $K$ 个回归值，对 $K$ 个回归值进行softmax计算得到分类结果

GBDT应用
使用GBDT构建特征：GBDT本身不能产生特征，但可以产生特征的组合。首先使用GBDT生成多颗树，将待训练样本输入到这些树中，利用输出结果在每棵树叶节点上的位置组合得到新的特征。由此构建得到的组合特征可以和原始特征一起进行训练（如使用逻辑回归），这样可以增强训练算法对非线性分布的拟合能力

2. Xgboost

2.1 算法介绍
Xgboost与GBDT原理相同，也是使用多轮弱学习器对上一轮的残差进行训练，得到最终结果。相较于GBDT，Xgboost在目标函数的定义上有不同： $J_t=\sum_{i=1}^mL(y^{(i)},\hat{y}^{(i)}_{t-1}+f_t(x^{(i)}))+\Omega(f_t)+C$ 其中 $J_t$ 为第 $t$ 轮学习的代价函数； $L$ 为损失函数，一般回归任务中为平方差函数，分类任务中为交叉熵函数； $f_t$ 为第 $t$ 轮弱学习器学习到的结果； $\Omega$ 为正则项； $C$ 为常数项。

Xgboost算法中，将损失函数做泰勒展开，并保留至二次项。泰勒展开后的代价函数为： $J_t\simeq\sum_{i=1}^m\bigg[L(y^{(i)},\hat{y}^{(i)}_{t-1})+g^{(i)}f_t(x^{(i)})+\frac12h^{(i)}f_t^2(x^{(i)})\bigg]+\Omega(f_t)+C$ 其中 $g^{(i)}=\partial_{\hat{y}_{t-1}}L(y^{(i)},\hat{y}^{(i)}_{t-1})$ ， $h^{(i)}=\partial^2_{\hat{y}_{t-1}}L(y^{(i)},\hat{y}^{(i)}_{t-1})$ 。

在第 $t$ 步中， $\hat{y}^{(i)}_{t-1}$ 为真实值，即 $L(y^{(i)},\hat{y}^{(i)}_{t-1})$ 为常数，代价函数中的常数项不影响优化，可以直接去掉，此时可将代价函数写为： $J_t\simeq\sum_{i=1}^m\bigg[g^{(i)}f_t(x^{(i)})+\frac12h^{(i)}f_t^2(x^{(i)})\bigg]+\Omega(f_t)$

2.2 正则项定义
在代价函数中，损失函数定义了训练误差，正则项 $\Omega(f)$ 则定义了算法的复杂度。正则项的值越小，复杂度月底，泛化能力越强。在Xgboost中，正则项的表达式为： $\Omega(f)=\gamma T+\frac12 \lambda \sum_{j=1}^T||\omega_j||^2$ 其中， $T$ 表示决策树中叶节点的个数， $\omega_j$ 表示第 $j$ 个叶节点的分数。

将正则项表达式带入代价函数中，得： $J_t\simeq\sum_{j=1}^T\bigg[(\sum _{i\in I_j}g^{(i)})\omega _j+\frac12(\sum _{i\in I_j}h^{(i)}+\lambda)\omega _j^2\bigg]+\gamma T$ 其中， $I_j$ 为每个叶节点 $j$ 上样本下标的集合。令 $G_j=\sum _{i\in I_j}g^{(i)}$ ， $H_j=\sum _{i\in I_j}h^{(i)}$ ，可将公式化简为： $J_t\simeq\sum_{j=1}^T\bigg[G_j\omega _j+\frac12(H_j+\lambda)\omega _j^2\bigg]+\gamma T$ 通过对 $\omega_j$ 求导等于0，可得： $\omega_j^*=-\cfrac{G_j}{H_j+\lambda}$ 带入代价函数得： $J_t\simeq-\frac12\sum_{j=1}^T\cfrac{G_j^2}{H_j+\lambda}+\gamma T$ 代价函数越小，代表这个树的结构越好。

2.3 决策树的生成
2.3.1 贪心法
每次要进行节点分裂时，先将一个特征中的值进行排序，然后线性扫描确定该特征中最好的分割点（只进行二分），分割点的选择通过信息增益Gain来确定： $Gain=\frac12\big[\cfrac{G_L^2}{H_L+\lambda}+\cfrac{G_R^2}{H_R+\lambda}-\cfrac{(G_L+G_R)^2}{H_L+H_R+\lambda}\big]-\gamma$ 等式右侧第一项表示左子树的分数，第二项表示右子树的分数，第三项表示不进行分裂树的分数，第四项为加入新叶节点引入的复杂度代价。

对于可选择的所有特征，均通过上述方式确定分割点，然后选择Gain最大的特征的分割点进行节点分裂。为了限制树生长过深，设定一个阈值： $L_{split}=\frac12\big[\cfrac{(\sum_{i\in I_L}g^{(i)})^2}{\sum_{i\in I_L}h^{(i)}+\lambda}+\cfrac{(\sum_{i\in I_R}g^{(i)})^2}{\sum_{i\in I_R}h^{(i)}+\lambda}-\cfrac{(\sum_{i\in I}g^{(i)})^2}{\sum_{i\in I}h^{(i)}+\lambda}\big]-\gamma$ 只有当Gain大于该阈值时才进行分裂

2.3.2 近似算法
当数据量太大，不能直接计算Gain时，要采用近似算法生成决策树

2.4 GBDT和Xgboost的区别

GBDT采用数值优化的思维，用梯度下降求得损失函数的最优解，其中梯度下降用到的负梯度使用决策树拟合；Xgboost采用解析的思维，将损失函数泰勒展开到二阶近似，求得解析解，将解析解作为Gain来建立决策树，使得代价函数最优
GBDT在优化时只用到一阶导数信息，Xgboost用到了一阶导和二阶导
Xgboost在代价函数中加入了正则项，用于控制模型复杂度
Xgboost借鉴了随机森林的做法，支持列抽样，可降低过拟合、减少计算
对特征值有缺失的样本，Xgboost可以自动学习出它的分裂方向
Xgboost支持并行，在训练前预先对数据进行排序，并存储为block结构，后面的迭代中重复使用该结构，在节点分裂时可多线程计算

花繁四季

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
GBDT & XGBoost

1. GBDT1.1 算法介绍GBDT（Gradient Boosting Decision Tree，梯度提升决策树）是boosting类型的机器学习算法，是传统机器学习算法中对真实分布拟合最好的几种之一，既可以用于分类也可以用于回归，可以筛选特征GBDT采用加法模型（基函数的线性组合），通过不断减小训练过程产生的残差来达到数据的分类或回归1.2 GBDT训练过程GBDT通过多轮迭代，每轮迭代产生一个弱分类器，每个分类器在上一轮分类器的残差基础上进行训练对弱分类器的要求一般是足够简单、低
复制链接

扫一扫

专栏目录