GBDT梯度提升决策树小结

最新推荐文章于 2022-05-23 22:04:07 发布

DawN、

最新推荐文章于 2022-05-23 22:04:07 发布

阅读量404

点赞数

分类专栏：机器学习文章标签：机器学习集成学习

本文链接：https://blog.csdn.net/lmxt520/article/details/88092087

版权

机器学习专栏收录该内容

4 篇文章 0 订阅

订阅专栏

GBDT算法梳理

一、前向分布算法

提到前向分布算法，必须要说的就是AdaBoost算法，AdaBoost算法最基本的性质就是它能够在学习过程中不断减少训练误差，即在训练集上的分类误差率。AdaBoost最终分类器的误差界定为
$\frac{1}{N}\sum_{i=1}^NI(G(x_i)\neq y_i)\leq \frac{1}{N}\sum_{i}exp(-y_if(x_i))=\prod_{m}Z_m$
AdaBoost算法还有另一种解释，即可一认为AdaBoost算法是模型为加法模型，损失函数为指数函数、学习算法为前向分布算法是的二分类学习方法。

前向分布算法

考虑加法模型

$\sum_{m=1}^M\beta_mb(x;\gamma_m)$

其中b(x;γm)为基函数，γmγm为基函数的参数，βmβm为基函数的系数，βmβm表示着对应的基函数在加法模型f(x)f(x)中的重要性。

给定训练数据及损失函数后，学习加法模型成为经验风险极小化即损失函数极小化问题：
$\min_{\beta_m,\gamma_m}\sum_{i=1}^NL\left(y_i, \sum_{m=1}^M\beta_mb(x;\gamma_m)\right)$
通常只是一个复杂的优化问题，前向分布算法求解这一优化问题的想法是：因为学习的是假发模型，如果能够从前向后，每一步只学习一个基函数及其系数，逐步逼近优化莫表函数，那么就可以简化优化的复杂度，具体的，每一步只需优化如下损失函数：
$\min_{\beta,\gamma}\sum_{i=1}^NL\left( y_i,\beta b(x_i,\gamma)\right)$

算法过程

输入:训练数据集T={(x1,y1),(x2,y2),…,(xN,yN)}；损失函数L(y,f(x))L(y,f(x))；基函数集{b(x;γ)}{b(x;γ)}
输出:加法模型f(x)f(x)
(1)初始化f0(x)=0

(2)对m=1,2,…,M
①极小化损失函数，得到参数βm和γm
$(\beta_m,\gamma_m) = arg\min_{\beta,\gamma}\sum_{i=1}^NL(y_i,f_{m-1}(x_i)+\beta b(x_i;\gamma))$

②更新fm(x)
$f_m(x)=f_{m-1}(x)+\beta_mb(x;\gamma_m)$
(3)得到加法模型f(x)f(x)
$f_M(x) = \sum_{m=1}^M\beta_mb(x;\gamma_m)$
这样我们就将求m=1到M的所有参数βm和γm 的优化问题简化为逐步求解各个βm和γm 的优化问题

二、负梯度拟合

提升树方法采用了加法模型（基函数的线性组合）与前向分布算法，以决策树为基函数的提升方法来训练模型。对于一般的回归树，采用平方误差损失函数，根据前向分布每次只需要达到最优化，就能保证基本优化，由于平方误差的特殊性，可以推到出每次只需要拟合残差（真实值-预测值）。在梯度提升树中，对于其他损失函数，提出使用负梯度表示残差的近似值。

梯度提升算法过程

输入：训练数据集T={(x1,y1),(x2,y2),…,(xN,yN)}；损失函数L(y,f(x))；基函数集{b(x;γ)}

输出：回归树

(1) 初始化
$f_0(x) = arg \min_c \sum_{i=1}^NL(y_i,c)$
(2) 对m = 1,2,3,…,M

①对i=1,2,3,…,N,计算
$r_{mi} = -[\frac{\partial L(y_i,f(x_i))}{\partial f(x_i)}]_{f(x)=f_{(m-i)}(x)}$
②对上式拟合一个回归树，得到第m棵树的叶结点区域Rmj，j=1,2,3,…,J

③对j=1,2,3,…,J,计算
$c_{mj} = arg \min_c\sum_{x_i\in R_{mi}}L(y_i,f_{m-1}(x_i)+c)$

④更新
$f_m(x) = f_{m-1}(x)+\sum_{j=1}^Jc_{mj}I(x\in R_{mj})$
(3)得到回归树
$\hat{f}(x) = f_M(x)=\sum_{m=1}^M\sum_{j=1}^J c_{mj}I(x\in R_{mj})$

三、损失函数

对于分类算法，其损失函数一般有对数损失函数和指数损失函数两种:

a) 如果是指数损失函数，则损失函数表达式为
$L(y_i,f(x)) = exp(-yf(x))$
对于回归算法，常用损失函数有如下4种:

a) 均方差，这个是最常见的回归损失函数了
$L(y,f(x)) = (y-f(x))^2$
　　　　b) 绝对损失，这个损失函数也很常见
$L (y, f (x)) = ∣ y - f (x) ∣$
　　　　　　对应负梯度误差为：
$sign(y_i -f(x_i))$
　　　　c) Huber损失，它是均方差和绝对损失的折衷产物，对于远离中心的异常点，采用绝对损失，而中心附近的点采用均方差。这个界限一般用分位数点度量。

d) 分位数损失。它对应的是分位数回归的损失函数，

对于Huber损失和分位数损失，主要用于健壮回归，也就是减少异常点对损失函数的影响。

四、GBDT回归算法

对于GBDT的回归算法，只需将弱学习器中的决策树模型换为回归决策树即可，算法步骤同上边的负梯度相同。

五、GBDT的二分类和多分类

GBDT的分类算法从思想上和GBDT的回归算法没有区别，但是由于样本输出不是连续的值，而是离散的类别，导致我们无法直接从输出类别去拟合类别输出的误差。

为了解决这个问题，主要有两个方法，一个是用指数损失函数，此时GBDT退化为Adaboost算法。另一种方法是用类似于逻辑回归的对数似然损失函数的方法。也就是说，我们用的是类别的预测概率值和真实概率值的差来拟合损失。本文仅讨论用对数似然损失函数的GBDT分类。而对于对数似然损失函数，我们又有二元分类和多元分类的区别。

5.1 二元GBDT分类

对于二元GBDT，使用类似于逻辑回归的对数似然损失函数时，比较难以优化，所以用近似值来代替

5.2 多元GBDT分类

多元GBDT中应使用多元逻辑回归，在生成决策树时，需要使用负梯度拟合来进行优化，同时需要使用近似值代替

除了负梯度计算和叶子节点的最佳负梯度拟合的线性搜索，多元GBDT分类和二元GBDT分类以及GBDT回归算法过程相同。

六、正则化

和Adaboost一样，我们也需要对GBDT进行正则化，防止过拟合。GBDT的正则化主要有三种方式。

第一种是和Adaboost类似的正则化项，即步长(learning rate)。定义为ν,对于前面的弱学习器的迭代
$f_k(x) = f_{k-1}(x) +h_k(x)$
　　　　如果我们加上了正则化项，则有
$f_k(x) = f_{k-1}(x) +vh_k(x)$
　　　　νν的取值范围为0<ν≤10<ν≤1。对于同样的训练集学习效果，较小的νν意味着我们需要更多的弱学习器的迭代次数。通常我们用步长和迭代最大次数一起来决定算法的拟合效果。

第二种正则化的方式是通过子采样比例（subsample）。取值为(0,1]。注意这里的子采样和随机森林不一样，随机森林使用的是放回抽样，而这里是不放回抽样。如果取值为1，则全部样本都使用，等于没有使用子采样。如果取值小于1，则只有一部分样本会去做GBDT的决策树拟合。选择小于1的比例可以减少方差，即防止过拟合，但是会增加样本拟合的偏差，因此取值不能太低。推荐在[0.5, 0.8]之间。

使用了子采样的GBDT有时也称作随机梯度提升树(Stochastic Gradient Boosting Tree, SGBT)。由于使用了子采样，程序可以通过采样分发到不同的任务去做boosting的迭代过程，最后形成新树，从而减少弱学习器难以并行学习的弱点。

第三种是对于CART回归树进行正则化剪枝。

七、优缺点

GBDT主要的优点有：

1) 可以灵活处理各种类型的数据，包括连续值和离散值。

2) 在相对少的调参时间情况下，预测的准确率也可以比较高。这个是相对SVM来说的。

3）使用一些健壮的损失函数，对异常值的鲁棒性非常强。比如 Huber损失函数和Quantile损失函数。

GBDT的主要缺点有：

1)由于弱学习器之间存在依赖关系，难以并行训练数据。

八、sklearn参数

对于GBDT调参，依旧为两类参数，第一类为Boosting框架自身的参数，第二类为GBDT中弱学习器CART参数调节

8.1 GBDT类库boosting框架参数

首先，我们来看boosting框架相关的重要参数。由于GradientBoostingClassifier和GradientBoostingRegressor的参数绝大部分相同，不同点在下边指出。

1) n_estimators: 也就是弱学习器的最大迭代次数，或者说最大的弱学习器的个数。一般来说n_estimators太小，容易欠拟合，n_estimators太大，又容易过拟合，一般选择一个适中的数值。默认是100。在实际调参的过程中，我们常常将n_estimators和下面介绍的参数learning_rate一起考虑。

2) learning_rate: 即每个弱学习器的权重缩减系数νν，也称作步长，在原理篇的正则化章节我们也讲到了，加上了正则化项，我们的强学习器的迭代公式为fk(x)=fk−1(x)+νhk(x)。νν的取值范围为0<ν≤10<ν≤1。对于同样的训练集拟合效果，较小的νν意味着我们需要更多的弱学习器的迭代次数。通常我们用步长和迭代最大次数一起来决定算法的拟合效果。所以这两个参数n_estimators和learning_rate要一起调参。一般来说，可以从一个小一点的νν开始调参，默认是1。

3) subsample: 即我们在原理篇的正则化章节讲到的子采样，取值为(0,1]。注意这里的子采样和随机森林不一样，随机森林使用的是放回抽样，而这里是不放回抽样。如果取值为1，则全部样本都使用，等于没有使用子采样。如果取值小于1，则只有一部分样本会去做GBDT的决策树拟合。选择小于1的比例可以减少方差，即防止过拟合，但是会增加样本拟合的偏差，因此取值不能太低。推荐在[0.5, 0.8]之间，默认是1.0，即不使用子采样。

4) init: 即我们的初始化的时候的弱学习器，拟合对应原理篇里面的f0(x)f0(x)，如果不输入，则用训练集样本来做样本集的初始化分类回归预测。否则用init参数提供的学习器做初始化分类回归预测。一般用在我们对数据有先验知识，或者之前做过一些拟合的时候，如果没有的话就不用管这个参数了。

5) loss: 即我们GBDT算法中的损失函数。分类模型和回归模型的损失函数是不一样的。

对于分类模型，有对数似然损失函数"deviance"和指数损失函数"exponential"两者输入选择。默认是对数似然损失函数"deviance"。在原理篇中对这些分类损失函数有详细的介绍。一般来说，推荐使用默认的"deviance"。它对二元分离和多元分类各自都有比较好的优化。而指数损失函数等于把我们带到了Adaboost算法。

对于回归模型，有均方差"ls", 绝对损失"lad", Huber损失"huber"和分位数损失“quantile”。默认是均方差"ls"。一般来说，如果数据的噪音点不多，用默认的均方差"ls"比较好。如果是噪音点较多，则推荐用抗噪音的损失函数"huber"。而如果我们需要对训练集进行分段预测的时候，则采用“quantile”。

6) alpha：这个参数只有GradientBoostingRegressor有，当我们使用Huber损失"huber"和分位数损失“quantile”时，需要指定分位数的值。默认是0.9，如果噪音点较多，可以适当降低这个分位数的值。

8.2 GBDT类库弱学习器CART参数调节

1) 划分时考虑的最大特征数max_features: 可以使用很多种类型的值，默认是"None",意味着划分时考虑所有的特征数；如果是"log2"意味着划分时最多考虑log2Nlog2N个特征；如果是"sqrt"或者"auto"意味着划分时最多考虑N−−√N个特征。如果是整数，代表考虑的特征绝对数。如果是浮点数，代表考虑特征百分比，即考虑（百分比xN）取整后的特征数。其中N为样本总特征数。一般来说，如果样本特征数不多，比如小于50，我们用默认的"None"就可以了，如果特征数非常多，我们可以灵活使用刚才描述的其他取值来控制划分时考虑的最大特征数，以控制决策树的生成时间。

2) 决策树最大深度max_depth: 默认可以不输入，如果不输入的话，默认值是3。一般来说，数据少或者特征少的时候可以不管这个值。如果模型样本量多，特征也多的情况下，推荐限制这个最大深度，具体的取值取决于数据的分布。常用的可以取值10-100之间。

3) 内部节点再划分所需最小样本数min_samples_split: 这个值限制了子树继续划分的条件，如果某节点的样本数少于min_samples_split，则不会继续再尝试选择最优特征来进行划分。默认是2.如果样本量不大，不需要管这个值。如果样本量数量级非常大，则推荐增大这个值。

4) 叶子节点最少样本数min_samples_leaf: 这个值限制了叶子节点最少的样本数，如果某叶子节点数目小于样本数，则会和兄弟节点一起被剪枝。默认是1,可以输入最少的样本数的整数，或者最少样本数占样本总数的百分比。如果样本量不大，不需要管这个值。如果样本量数量级非常大，则推荐增大这个值。

5）叶子节点最小的样本权重和min_weight_fraction_leaf：这个值限制了叶子节点所有样本权重和的最小值，如果小于这个值，则会和兄弟节点一起被剪枝。默认是0，就是不考虑权重问题。一般来说，如果我们有较多样本有缺失值，或者分类树样本的分布类别偏差很大，就会引入样本权重，这时我们就要注意这个值了。

6) 最大叶子节点数max_leaf_nodes: 通过限制最大叶子节点数，可以防止过拟合，默认是"None”，即不限制最大的叶子节点数。如果加了限制，算法会建立在最大叶子节点数内最优的决策树。如果特征不多，可以不考虑这个值，但是如果特征分成多的话，可以加以限制，具体的值可以通过交叉验证得到。

7) 节点划分最小不纯度min_impurity_split: 这个值限制了决策树的增长，如果某节点的不纯度(基于基尼系数，均方差)小于这个阈值，则该节点不再生成子节点。即为叶子节点。一般不推荐改动默认值1e-7。