GBDT算法梳理

最新推荐文章于 2020-11-30 14:24:08 发布

K_Snail

最新推荐文章于 2020-11-30 14:24:08 发布

阅读量139

点赞数

分类专栏： Kaggle 文章标签： Kaggle

Kaggle 专栏收录该内容

4 篇文章 0 订阅

订阅专栏

1 前向分布算法

GBDT是集成学习Boosting家族的成员，但是却和传统的Adaboost有很大的不同。Adaboost是利用前一轮迭代弱学习器的误差率来更新训练集的权重，这样一轮轮的迭代下去。GBDT也是迭代，使用了前向分布算法，但是弱学习器限定了只能使用CART回归树模型，同时迭代思路和Adaboost也有所不同。
在GBDT的迭代中，假设我们前一轮迭代得到的强学习器是 $f_{t−1}(x)$ ，损失函数是 $L(y,f_{t−1}(x))$ ，我们本轮迭代的目标是找到一个CART回归树模型的弱学习器 $h_t(x)$ ，让本轮的损失函数 $L(y,f_t(x))=L(y,f_{t−1}(x)+h_t(x))$ 最小。也就是说，本轮迭代找到决策树，要让样本的损失尽量变得更小。
GBDT的思想可以用一个通俗的例子解释，假如有个人30岁，我们首先用20岁去拟合，发现损失有10岁，这时我们用6岁去拟合剩下的损失，发现差距还有4岁，第三轮我们用3岁拟合剩下的差距，差距就只有一岁了。如果我们的迭代轮数还没有完，可以继续迭代下面，每一轮迭代，拟合的岁数误差都会减小。

2 负梯度拟合

针对损失函数拟合问题，提出用损失函数的负梯度来拟合本轮损失的近似值，进而拟合一个CART回归树。第 $t$ 轮的第 $i$ 个样本的损失函数的负梯度表示为 $r_{ti}=-\left[\frac{\partial L(y_i,f(x_i))}{\partial f(x_i)}\right]_{f(x)=f_{t-1}(x)}$
利用 $x_i,r_{ti})(i=1,2,...m)$ ，我们可以拟合一颗CART回归树，得到了第 $t$ 颗回归树，其对应的叶节点区域 $R_{tj}(j=1,2,...J)$ ，其中 $J$ 为叶子节点的个数。
针对每一个叶子节点里的样本，我们求出使损失函数最小，也就是拟合叶子节点最好的的输出值 $c_{tj}$ 如下： $c_{tj}=\arg\min\sum_{x_i\in R_{ti}}{L(y_i,f_{t-i}(x_i)+c)}$
得到本轮的决策树拟合函数如下： $h_t(x)=\sum_{j=1}^J{c_{tj}I(x\in R_{tj})}$
最终得到的强学习器的表达式如下： $f_t(x)=f_{t-1}(x)+\sum_{j=1}^J{c_{tj}I(x\in R_{tj})}$
通过损失函数的负梯度来拟合，找到一种通用的拟合损失误差的办法，这样无轮是分类问题还是回归问题，我们通过其损失函数的负梯度的拟合，就可以用GBDT来解决我们的分类回归问题。区别仅仅在于损失函数不同导致的负梯度不同而已。

3 损失函数

（1）分类算法
a）指数损失函数，则损失函数表达式为： $L(y,f(x))=\exp(−yf(x))$
b）如果是对数损失函数，分为二元分类和多元分类两种
（2）回归算法
a）均方差，这个是最常见的回归损失函数： $L(y,f(x))=(y−f(x))^2$
b）绝对损失，这个损失函数也很常见： $L(y,f(x))=\vert y−f(x)\vert$
对应负梯度误差为： $sign(y_i−f(x_i))$
c）Huber损失，它是均方差和绝对损失的折衷产物，对于远离中心的异常点，采用绝对损失，而中心附近的点采用均方差。这个界限一般用分位数点度量。损失函数如下： $L(y,f(x))=\begin{cases} \frac{1}{2}(y−f(x))^2&{\vert y-f(x)\vert\le\delta}\\ \delta(|y-f(x)|-\frac{\delta}{2})&{|y-f(x)|>\delta} \end{cases}$
对应的负梯度误差为：
$r(y_i,f(x_i))=\begin{cases} y_i-f(x_i)&{\vert y_i-f(x_i)\vert\le\delta}\\ \delta sign(y_i-f(x_i))&{|y_i-f(x_i)|>\delta} \end{cases}$
d）分位数损失。它对应的是分位数回归的损失函数，表达式为：
$L(y,f(x))=\sum_{y\ge f(x)}\theta|y−f(x)|+\sum_{y<f(x)}(1−θ)|y−f(x)|$
其中 $\theta$ 为分位数，需要我们在回归前指定，对应的负梯度误差为： $r(y_i,f(x_i))=\begin{cases} \theta&{y_i\ge f_i(x)}\\ \theta-1&{y_i< f_i(x)} \end{cases}$
对于Huber损失和分位数损失，减少异常点对损失函数的影响。

4 回归算法

输入是训练集样本 $T=\left\{(x,y_1),(x_2,y_2),...(x_m,y_m)\right\}$ ，最大迭代次数 $T$ ，损失函数 $L$ 。
输出是强学习器 $f (x)$
（1）初始化弱学习器： $f_0(x)=\arg\min\sum_{i=1}^m{L(y_i,c)}$
（2）对迭代轮数 $t = 1, 2, . . . T$ 有：
a）对样本 $i = 1, 2 ， . . . m$ ，计算负梯度： $r_{ti}=-\left[\frac{\partial L(y_i,f(x_i))}{\partial f(x_i)}\right]_{f(x)=f_{t-1}(x)}$
b）利用 $x_i,r_{ti})(i=1,2,...m)$ ，拟合一颗CART回归树,得到第 $t$ 颗回归树，其对应的叶子节点区域为 $R_{tj}(j=1,2,...J)$ 。其中 $J$ 为回归树 $t$ 的叶子节点的个数。
c）对叶子区域 $j = 1, 2, . . . J$ ，计算最佳拟合值： $c_{tj}=\arg\min\sum_{x_i\in R_{tj}}{L(y_i,f_{t-i}(x_i)+c)}$
d）更新强学习器： $f_t(x)=f_{t-1}(x)+\sum_{j=1}^J{c_{tj}I(x\in R_{tj})}$
（3）得到强学习器 $f (x)$ 的表达式： $f(x)=f_T(x)=f_0(x)+\sum_{t=1}^T{\sum_{j=1}^J{c_{tj}I(x\in R_{tj})}}$

5 GBDT分类算法

GBDT的分类算法从思想上和GBDT的回归算法没有区别，但是由于样本输出不是连续的值，而是离散的类别，导致我们无法直接从输出类别去拟合类别输出的误差。
为了解决这个问题，主要有两个方法，一个是用指数损失函数，此时GBDT退化为Adaboost算法。另一种方法是用类似于逻辑回归的对数似然损失函数的方法。也就是说，我们用的是类别的预测概率值和真实概率值的差来拟合损失。本文仅讨论用对数似然损失函数的GBDT分类。而对于对数似然损失函数，我们又有二元分类和多元分类的区别。

5.1 二元GBDT分类算法

对于二元GBDT，如果用类似于逻辑回归的对数似然损失函数，则损失函数为： $L(y,f(x))=\log(1+\exp(−yf(x)))$
其中 $y\in \left\{−1,+1\right\}$ 。则此时的负梯度误差为： $r_{ti}=-\left[\frac{\partial L(y_i,f(x_i))}{\partial f(x_i)}\right]_{f(x)=f_{t-1}(x)}=y_i/(1+\exp(−y_if(x_i)))$
对于生成的决策树，我们各个叶子节点的最佳负梯度拟合值为：
$c_{tj}=\arg\min\sum_{x_i\in R_{tj}}{\log(1+\exp(−y_i(f_{t-1}(x_i)+c)))}$
由于上式比较难优化，一般使用近似值代替： $c_{tj}=\sum_{x_i\in R_{tj}}{r_{ti}}/\sum_{x_i\in R_{tj}}{\vert r_{ti}\vert(1-\vert r_{ti}\vert)}$
除了负梯度计算和叶子节点的最佳负梯度拟合的线性搜索，二元GBDT分类和GBDT回归算法过程相同。

5.2 多元GBDT分类算法

多元GBDT要比二元GBDT复杂一些，对应的是多元逻辑回归和二元逻辑回归的复杂度差别。假设类别数为 $K$ ，则此时我们的对数似然损失函数为： $L(y,f(x))=-\sum_{k=1}^K{y_k\log p_k(x)}$
其中如果样本输出类别为 $k$ ，则 $y_k=1$ 。第 $k$ 类的概率 $p_k(x)$ 的表达式为： $p_k(x)=\exp(f_k(x))/\sum_{l=1}^K\exp(f_l(x))$
集合上两式，我们可以计算出第 $t$ 轮的第 $i$ 个样本对应类别l的负梯度误差为： $r_{til}=-\left[\frac{\partial L(y_i,f(x_i))}{\partial f(x_i)}\right]_{f_k(x)=f_{l,t-1}(x)}=y_{il}-p_{l,t-1}(x_i)$
观察上式可以看出，其实这里的误差就是样本 $i$ 对应类别l的真实概率和 $t - 1$ 轮预测概率的差值。
对于生成的决策树，我们各个叶子节点的最佳负梯度拟合值为： $c_{tjl}=\arg\min\sum_{i=0}^m{\sum_{k=1}^K{L(y_k,f_{t−1,l}(x)+\sum_{j=0}^Jc_{jl}I(x_i\in R_{tj}))}}$
由于上式比较难优化，我们一般使用近似值代替： $c_{tjl}=\frac{K-1}{K}\frac{\sum_{x_i\in R_{tjl}}{r_{til}}}{\sum_{x_i\in R_{til}}{\vert r_{til}\vert(1-\vert r_{til}\vert)}}$
除了负梯度计算和叶子节点的最佳负梯度拟合的线性搜索，多元GBDT分类和二元GBDT分类以及GBDT回归算法过程相同。

6 正则化

和Adaboost一样，我们也需要对GBDT进行正则化，防止过拟合。GBDT的正则化主要有三种方式。
（1）一种是和Adaboost类似的正则化项，即步长。定义为 $ν$ ,对于前面的弱学习器的迭代：
$f_k(x)=f_{k−1}(x)+h_k(x)$
如果我们加上了正则化项，则有：
$f_k(x)=f_{k−1}(x)+νh_k(x)$
$ν$ 的取值范围为 $0<ν\le 1$ 。对于同样的训练集学习效果，较小的 $ν$ 意味着我们需要更多的弱学习器的迭代次数。通常我们用步长和迭代最大次数一起来决定算法的拟合效果。
（2）第二种正则化的方式是通过子采样比例(subsample)。取值为(0,1]。注意这里的子采样和随机森林不一样，随机森林使用的是放回抽样，而这里是不放回抽样。如果取值为1，则全部样本都使用，等于没有使用子采样。如果取值小于1，则只有一部分样本会去做GBDT的决策树拟合。选择小于1的比例可以减少方差，即防止过拟合，但是会增加样本拟合的偏差，因此取值不能太低。推荐在[0.5, 0.8]之间。
使用了子采样的GBDT有时也称作随机梯度提升树(Stochastic Gradient Boosting Tree, SGBT)。由于使用子采样，程序可以通过采样分发到不同的任务去做boosting的迭代过程，最后形成新树，从而减少弱学习器难以并行学习的弱点。
（3）第三种是对于弱学习器，即CART回归树进行正则化剪枝。

7 优缺点

7.1 优点

（1）可以灵活处理各种类型的数据，包括连续值和离散值。
（2）在相对少的调参时间情况下，预测的准确率也可以比较高，这个是相对SVM来说的。
（3）使用一些健壮的损失函数，对异常值的鲁棒性非常强。比如 Huber损失函数和Quantile损失函数。

7.2 缺点

由于弱学习器之间存在依赖关系，难以并行训练数据。不过可以通过自采样的SGBT来达到部分并行。

8 sklearn参数

8.1 GBDT类库boosting框架参数

首先，我们来看Boosting框架相关的重要参数。由于GradientBoostingClassifier和GradientBoostingRegressor的参数绝大部分相同，我们下面会一起来讲，不同点会单独指出。
（1）n_estimators：也就是弱学习器的最大迭代次数，或者说最大的弱学习器的个数。一般来说n_estimators太小，容易欠拟合，n_estimators太大，又容易过拟合，一般选择一个适中的数值。默认是100。在实际调参的过程中，我们常常将n_estimators和下面介绍的参数learning_rate一起考虑。
（2）learning_rate：即每个弱学习器的权重缩减系数w，也称作步长。对于同样的训练集拟合效果，较小的w意味着我们需要更多的弱学习器的迭代次数。通常我们用步长和迭代最大次数一起来决定算法的拟合效果。所以这两个参数n_estimators和learning_rate要一起调参。一般来说，可以从一个小一点的w开始调参，默认是1。
（3）subsample：取值为(0,1]，注意这里的子采样和随机森林不一样，随机森林使用的是放回抽样，而这里是不放回抽样。如果取值为1，则全部样本都使用，等于没有使用子采样。如果取值小于1，则只有一部分样本会去做GBDT的决策树拟合。选择小于1的比例可以减少方差，即防止过拟合，但是会增加样本拟合的偏差，因此取值不能太低。推荐在[0.5,0.8]之间，默认是1.0，即不使用子采样。
（4）init：即初始化的时候的弱学习器，如果不输入，则用训练集样本来做样本集的初始化分类回归预测。否则用init参数提供的学习器做初始化分类回归预测。一般用在我们对数据有先验知识，或者之前做过一些拟合的时候，如果没有的话就不用管这个参数了。
（5）loss：即我们GBDT算法中的损失函数。分类模型和回归模型的损失函数是不一样的。
a）对于分类模型，有对数似然损失函数"deviance"和指数损失函数"exponential"两者输入选择。默认是对数似然损失函数"deviance"。一般来说，推荐使用默认的"deviance"。它对二元分离和多元分类各自都有比较好的优化。而指数损失函数等于把我们带到了Adaboost算法。
b）对于回归模型，有均方差"ls"、绝对损失"lad"、Huber损失"huber"和分位数损失"quantile"。默认是均方差"ls"。一般来说，如果数据的噪音点不多，用默认的均方差"ls"比较好。如果是噪音点较多，则推荐用抗噪音的损失函数"huber"。而如果我们需要对训练集进行分段预测的时候，则采用"quantile"。
（6）alpha：这个参数只有GradientBoostingRegressor有，当我们使用Huber损失"huber"和分位数损失"quantile"时，需要指定分位数的值。默认是0.9，如果噪音点较多，可以适当降低这个分位数的值。

8.2 GBDT类库弱学习器参数

由于GBDT使用了CART回归决策树，因此它的参数基本来源于决策树类，也就是说，和DecisionTreeClassifier和DecisionTreeRegressor的参数基本类似。
（1）最大特征数max_features：可以使用很多种类型的值，默认是"None",意味着划分时考虑所有的特征数；如果是"log2"意味着划分时最多考虑 $\log2N$ 个特征；如果是"sqrt"或者"auto"意味着划分时最多考虑 $N-\sqrt N$ 个特征。如果是整数，代表考虑的特征绝对数。如果是浮点数，代表考虑特征百分比。其中 $N$ 为样本总特征数。一般来说，如果样本特征数不多，比如小于50，我们用默认的"None"就可以了，如果特征数非常多，我们可以灵活使用刚才描述的其他取值来控制划分时考虑的最大特征数，以控制决策树的生成时间。
（2）决策树最大深度max_depth：默认可以不输入，如果不输入的话，决策树在建立子树的时候不会限制子树的深度。一般来说，数据少或者特征少的时候可以不管这个值。如果模型样本量多，特征也多的情况下，推荐限制这个最大深度，具体的取值取决于数据的分布。常用的可以取值10-100之间。
（3）内部节点再划分所需最小样本数min_samples_split：这个值限制了子树继续划分的条件，如果某节点的样本数少于min_samples_split，则不会继续再尝试选择最优特征来进行划分。默认是2，如果样本量不大，不需要管这个值。如果样本量数量级非常大，则推荐增大这个值。
（4）叶子节点最少样本数min_samples_leaf：这个值限制了叶子节点最少的样本数，如果某叶子节点数目小于样本数，则会和兄弟节点一起被剪枝。默认是1，可以输入最少的样本数的整数，或者最少样本数占样本总数的百分比。如果样本量不大，不需要管这个值。如果样本量数量级非常大，则推荐增大这个值。
（5）叶子节点最小的样本权重和min_weight_fraction_leaf：这个值限制了叶子节点所有样本权重和的最小值，如果小于这个值，则会和兄弟节点一起被剪枝。默认是0，就是不考虑权重问题。一般来说，如果我们有较多样本有缺失值，或者分类树样本的分布类别偏差很大，就会引入样本权重，这时我们就要注意这个值了。
（6）最大叶子节点数max_leaf_nodes：通过限制最大叶子节点数，可以防止过拟合，默认是"None"，即不限制最大的叶子节点数。如果加了限制，算法会建立在最大叶子节点数内最优的决策树。如果特征不多，可以不考虑这个值，但是如果特征分成多的话，可以加以限制，具体的值可以通过交叉验证得到。
（7）节点划分最小不纯度min_impurity_split：这个值限制了决策树的增长，如果某节点的不纯度(基于基尼系数，均方差)小于这个阈值，则该节点不再生成子节点。即为叶子节点。一般不推荐改动默认值1e-7。