GBDT + LR

最新推荐文章于 2024-01-21 22:00:00 发布

Geek_Chang

最新推荐文章于 2024-01-21 22:00:00 发布

阅读量827

点赞数 1

分类专栏：机器学习文章标签： GBDT 组合算法 stacking bagging

机器学习专栏收录该内容

4 篇文章 0 订阅

订阅专栏

GBDT + LR

4、scikit-learn GBDT类库概述

4.1、GBDT类库boosting框架参数

4.2、 GBDT类库弱学习器参数

1、GBDT + LR 概述

本质上GBDT + LR 是一种具有stacking思想的二分类器。一般数据量大时，常采用速度较快的LR，但LR是线性模型，学习能力有限，此时特征工程尤为重要。现有的特征工程主要集中在寻找有区分度的特征、特征组合，折腾一圈未必带来效果提升。GBDT算法的特点正好可以用来发掘有区分度的特征及特征组合，减少特征工程中的人力成本。

GBDT和LR的融合方案，FaceBook的paper中有个例子：

图中共有两棵树，x为一条输入样本，遍历两棵树后，x样本分别落到两颗树的叶子节点上，每个叶子节点对应LR一维特征，那么通过遍历树，就得到了该样本对应的所有LR特征。构造的新特征向量是取值0/1的。举例来说：上图有两棵树，左树有三个叶子节点，右树有两个叶子节点，最终的特征即为五维的向量。对于输入x，假设他落在左树第一个节点，编码[1,0,0]，落在右树第二个节点则编码[0,1]，所以整体的编码为[1,0,0,0,1]，这类编码作为特征，输入到LR中进行分类。

2、GBDT概述

GBDT 是一种boosting的组合算法，核心思想在于累加所有树的结果作为最终的结果。

下面简单举例说明下GBDT 的回归树基本模版

训练集是4个人，A，B，C，D年龄分别是14，16，24，26。样本中有购物金额、上网时长、经常到百度知道提问等特征。提升树的过程如下：

从上图可以看出，第一棵树建立的时候使用的是原始数据，而后每一棵树建立使用的是前n-1次的残差来拟合弱学习器。

3、GBDT的损失函数

在sklearn中梯度提升回归树有四种可选的损失函数，分别为'ls：平方损失'，'lad:绝对损失'，'huber：huber损失'，'quantile：分位数损失'；而在sklearn中梯度提升分类树有两种可选的损失函数，一种是‘exponential：指数损失’，一种是‘deviance：对数损失’。下面分别介绍这几种损失函数。

3.1 梯度提升回归树损失函数介绍

（1）ls：平方损失，这是最常见的回归损失函数了，如下:

$L(y,f(x)) = (y - f(x))^{2}$

当GBDT的损失函数是平方损失时，即时 $L(y,f(x)) = (y - f(x))^{2}$ ，则负梯度 $y - f(x)$ ，而即为我们所说的残差，而我们的GBDT的思想就是在每次迭代中拟合残差来学习一个弱学习器。而残差的方向即为我们全局最优的方向。但是当损失函数不为平方损失时，我们该如何拟合弱学习器呢？大牛Friedman提出使用损失函数负梯度的方向代替残差方向，我们称损失函数负梯度为伪残差。而伪残差的方向即为我们局部最优的方向。所以在GBDT中，当损失函数不为平方损失时，用每次迭代的局部最优方向代替全局最优方向.

（2）lad：绝对损失，这个损失函数也很常见，如下：

$L(y,f(x)) = |y -f(x))|$

（3）huber：huber损失它是平方损失和绝对损失的结合产物，对于远离中心的异常点采用绝对损失，而中心附近的点采用平方损失。这个界限一般用分位数点度。

（4）quantile：分位数损失，它对应的是分位数回归的损失函数。

对于huber损失和分位数损失主要作用就是减少异常点对损失函数的影响。

3.2 梯度提升分类树损失函数介绍

GBDT分类算法思想上和GBDT的回归算法没有什么区别，但是由于样本输出不是连续值，而是离散类别，导致我们无法直接从输出类别去拟合类别输出误差。为了解决这个问题，主要有两种方法。一是用指数损失函数，此时GBDT算法退化为AdaBoost算法。另一种方法是用类似于逻辑回归的对数似然损失函数的方法。也就是说，我们用的是类别的预测概率值和真实概率值的差来拟合损失。当损失函数为指数函数时

（1）exponential：指数损失，表达式如下：

$L(y,f(x))) = exp(-yf(x)))$

（2）deviance：对数损失，类似于logistic回归的损失函数，输出的是类别的概率，表达式如下：

$L(y,f(x)) = ln(1 + exp(-2yf(x)))$

4、scikit-learn GBDT类库概述

在scikit-learn中，GradientBoostingClassifier为GBDT的分类类，而GradientBoostingRegressor为GBDT的回归类。两者的参数类型完全相同，当然有些参数比如损失函数loss的可选择项并不相同。这些参数中，类似于Adaboost，我们把重要参数分为两类，第一类是Boosting框架的重要参数，第二类是弱学习器即CART回归树的重要参数。

下面我们就从这两个方面来介绍这些参数的使用。

4.1、GBDT类库boosting框架参数

首先，我们来看boosting框架相关的重要参数。由于GradientBoostingClassifier和GradientBoostingRegressor的参数绝大部分相同，我们下面会一起来讲，不同点会单独指出。

1) n_estimators: 也就是弱学习器的最大迭代次数，或者说最大的弱学习器的个数。一般来说n_estimators太小，容易欠拟合，n_estimators太大，又容易过拟合，一般选择一个适中的数值。默认是100。在实际调参的过程中，我们常常将n_estimators和下面介绍的参数learning_rate一起考虑。

2) learning_rate: 即每个弱学习器的权重缩减系数v，也称作步长，对于同样的训练集拟合效果，较小的v意味着我们需要更多的弱学习器的迭代次数。通常我们用步长和迭代最大次数一起来决定算法的拟合效果。所以这两个参数n_estimators和learning_rate要一起调参。一般来说，可以从一个小一点的ν开始调参，默认是1。

3) subsample: 即子采样，取值为(0,1]。注意这里的子采样和随机森林不一样，随机森林使用的是放回抽样，而这里是不放回抽样。如果取值为1，则全部样本都使用，等于没有使用子采样。如果取值小于1，则只有一部分样本会去做GBDT的决策树拟合。选择小于1的比例可以减少方差，即防止过拟合，但是会增加样本拟合的偏差，因此取值不能太低。推荐在[0.5, 0.8]之间，默认是1.0，即不使用子采样。

4) init: 即我们的初始化的时候的弱学习器，如果不输入，则用训练集样本来做样本集的初始化分类回归预测。否则用init参数提供的学习器做初始化分类回归预测。一般用在我们对数据有先验知识，或者之前做过一些拟合的时候，如果没有的话就不用管这个参数了。

5) loss: 即我们GBDT算法中的损失函数。分类模型和回归模型的损失函数是不一样的。

对于分类模型，有对数似然损失函数"deviance"和指数损失函数"exponential"两者输入选择。默认是对数似然损失函数"deviance"。一般来说，推荐使用默认的"deviance"。它对二元分离和多元分类各自都有比较好的优化。而指数损失函数等于把我们带到了Adaboost算法。

对于回归模型，有均方差"ls", 绝对损失"lad", Huber损失"huber"和分位数损失“quantile”。默认是均方差"ls"。一般来说，如果数据的噪音点不多，用默认的均方差"ls"比较好。如果是噪音点较多，则推荐用抗噪音的损失函数"huber"。而如果我们需要对训练集进行分段预测的时候，则采用“quantile”。

6) alpha：这个参数只有GradientBoostingRegressor有，当我们使用Huber损失"huber"和分位数损失“quantile”时，需要指定分位数的值。默认是0.9，如果噪音点较多，可以适当降低这个分位数的值。

4.2、 GBDT类库弱学习器参数

这里我们再对GBDT的类库弱学习器的重要参数做一个总结。由于GBDT使用了CART回归决策树，因此它的参数基本来源于决策树类，也就是说，和DecisionTreeClassifier和DecisionTreeRegressor的参数基本类似。如果你已经很熟悉决策树算法的调参，那么这一节基本可以跳过。不熟悉的朋友可以继续看下去。

1) 划分时考虑的最大特征数max_features: 可以使用很多种类型的值，默认是"None",意味着划分时考虑所有的特征数；如果是"log2"意味着划分时最多考虑log2N个特征；如果是"sqrt"或者"auto"意味着划分时最多考虑N开方个特征。如果是整数，代表考虑的特征绝对数。如果是浮点数，代表考虑特征百分比，即考虑（百分比xN）取整后的特征数。其中N为样本总特征数。一般来说，如果样本特征数不多，比如小于50，我们用默认的"None"就可以了，如果特征数非常多，我们可以灵活使用刚才描述的其他取值来控制划分时考虑的最大特征数，以控制决策树的生成时间。

2) 决策树最大深度max_depth: 默认可以不输入，如果不输入的话，决策树在建立子树的时候不会限制子树的深度。一般来说，数据少或者特征少的时候可以不管这个值。如果模型样本量多，特征也多的情况下，推荐限制这个最大深度，具体的取值取决于数据的分布。常用的可以取值10-100之间。

3) 内部节点再划分所需最小样本数min_samples_split: 这个值限制了子树继续划分的条件，如果某节点的样本数少于min_samples_split，则不会继续再尝试选择最优特征来进行划分。默认是2.如果样本量不大，不需要管这个值。如果样本量数量级非常大，则推荐增大这个值。

4) 叶子节点最少样本数min_samples_leaf: 这个值限制了叶子节点最少的样本数，如果某叶子节点数目小于样本数，则会和兄弟节点一起被剪枝。默认是1,可以输入最少的样本数的整数，或者最少样本数占样本总数的百分比。如果样本量不大，不需要管这个值。如果样本量数量级非常大，则推荐增大这个值。

5）叶子节点最小的样本权重和min_weight_fraction_leaf：这个值限制了叶子节点所有样本权重和的最小值，如果小于这个值，则会和兄弟节点一起被剪枝。默认是0，就是不考虑权重问题。一般来说，如果我们有较多样本有缺失值，或者分类树样本的分布类别偏差很大，就会引入样本权重，这时我们就要注意这个值了。

6) 最大叶子节点数max_leaf_nodes: 通过限制最大叶子节点数，可以防止过拟合，默认是"None”，即不限制最大的叶子节点数。如果加了限制，算法会建立在最大叶子节点数内最优的决策树。如果特征不多，可以不考虑这个值，但是如果特征分成多的话，可以加以限制，具体的值可以通过交叉验证得到。

7) 节点划分最小不纯度min_impurity_split: 这个值限制了决策树的增长，如果某节点的不纯度(基于基尼系数，均方差)小于这个阈值，则该节点不再生成子节点。即为叶子节点。一般不推荐改动默认值1e-7。

Geek_Chang

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
GBDT + LR

GBDT + LR1、GBDT + LR 概述2、GBDT概述3、GBDT的损失函数3.1梯度提升回归树损失函数介绍3.2 梯度提升分类树损失函数介绍4、scikit-learn GBDT类库概述4.1、GBDT类库boosting框架参数4.2、 GBDT类库弱学习器参数1、GBDT + LR 概述本质上GBDT + LR 是一种具有stacking思...
复制链接

扫一扫