集成学习之梯度提升树(GBDT)原理总结

最新推荐文章于 2023-04-10 13:35:12 发布

若只如初見~~

最新推荐文章于 2023-04-10 13:35:12 发布

阅读量434

点赞数

分类专栏：机器学习文章标签：算法机器学习深度学习人工智能 python

本文链接：https://blog.csdn.net/qq_43468807/article/details/106160700

版权

机器学习专栏收录该内容

28 篇文章 7 订阅

订阅专栏

一、GBDT概述

GBDT也是集成学习Boosting中的一种算法，但是却和传统的Adaboost有很大的不同。Adaboost 是利用前一轮迭代弱学习器的误差率来更新训练集的权重，这样一轮轮的迭代下去。GBDT也是迭代，但GBDT每一次的计算是都为了减少上一次的残差，进而在残差减少（负梯度）的方向上建立一个新的模型，其弱学习器限定了只能使用CART回归树模型，同时迭代思路和Adaboost也有所不同。

1.1、下面看个年龄预测的例子。

简单起见，假定训练集只有4个人：A,B,C,D，他们的年龄分别是14,16,24,26。其中A、B分别是高一和高三学生；C,D分别是应届毕业生和工作两年的员工。

现在我们使用GBDT来做这件事，由于数据太少，我们限定叶子节点最多有两个，即每棵树都只有一个分枝，并且限定只学两棵树。

我们会得到如下图所示结果：
在这里插入图片描述

在第一棵树分枝和图1一样，由于A,B年龄较为相近，C,D年龄较为相近，他们被分为左右两拨，每拨用平均年龄作为预测值。

此时计算残差（残差的意思就是：A的实际值 - A的预测值 = A的残差），所以A的残差就是实际值14 - 预测值15 = 残差值-1。
注意，A的预测值是指前面所有树累加的和，这里前面只有一棵树所以直接是15，如果还有树则需要都累加起来作为A的预测值。

残差在数理统计中是指实际观察值与估计值（拟合值）之间的差。“残差”蕴含了有关模型基本假设的重要信息。如果回归模型正确的话，我们可以将残差看作误差的观测值，进而得到A,B,C,D的残差分别为-1,1，-1,1。

然后拿它们的残差代替A B C D的原值-1、1、-1、1，到第二棵树去学习，第二棵树只有两个值1和-1，直接分成两个节点，即A和C分在左边，B和D分在右边，经过计算（比如A，实际值-1 - 预测值-1 = 残差0，比如C，实际值-1 - 预测值-1 = 0），此时所有人的残差都是0。

残差值都为0，相当于第二棵树的预测值和它们的实际值相等，则只需把第二棵树的结论累加到第一棵树上就能得到真实年龄了，即每个人都得到了真实的预测值。

换句话说，现在A,B,C,D的预测值都和真实年龄一致了。

A: 14岁高一学生，购物较少，经常问学长问题，预测年龄A = 15 – 1 = 14

B: 16岁高三学生，购物较少，经常被学弟问问题，预测年龄B = 15 + 1 = 16

C: 24岁应届毕业生，购物较多，经常问师兄问题，预测年龄C = 25 – 1 = 24

D: 26岁工作两年员工，购物较多，经常被师弟问问题，预测年龄D = 25 + 1 = 26

二、GBDT的负梯度拟合

第t轮的第i个样本的损失函数的负梯度表示为
在这里插入图片描述
利用 $x_i,r_{ti})(i=1,2,..m)$ ，我们可以拟合一颗CART回归树，得到了第t颗回归树，其对应的叶节点区域 $R_{tj},j=1,2,...,J$ 。其中 $J$ 为叶子节点的个数。

针对每一个叶子节点里的样本，我们求出使损失函数最小，也就是拟合叶子节点最好的的输出值 $c_{tj}$ 如下：
在这里插入图片描述
这样我们就得到了本轮的决策树拟合函数如下：

从而本轮最终得到的强学习器的表达式如下：

通过损失函数的负梯度来拟合，我们找到了一种通用的拟合损失误差的办法，这样无轮是分类问题还是回归问题，我们通过其损失函数的负梯度的拟合，就可以用GBDT来解决我们的分类回归问题。区别仅仅在于损失函数不同导致的负梯度不同而已。

三、GBDT回归算法

输入是训练集样本 $T={(x,y_1),(x_2,y_2),...,(x_m,y_m)}$ ，最大迭代次数T, 损失函数L。

输出是强学习器f(x)

初始化弱学习器
对迭代轮数t=1,2,…T有：
2.1 对样本i=1,2，…m，计算负梯度

2.2 利用 $x_i,r_{ti})(i=1,2,..m)$ ，拟合一颗CART回归树,得到第t颗回归树，其对应的叶子节点区域为 $R_{tj},j=1,2,...,J$ 。其中 $J$ 为回归树t的叶子节点的个数。
2.3 对叶子区域 $j = 1, 2, . . ., J$ ，计算最佳拟合值

2.4 更新强学习器
得到强学习器f(x)的表达式

四、GBDT分类算法

这里我们再看看GBDT分类算法，GBDT的分类算法从思想上和GBDT的回归算法没有区别，但是由于样本输出不是连续的值，而是离散的类别，导致我们无法直接从输出类别去拟合类别输出的误差。

为了解决这个问题，主要有两个方法，一个是用指数损失函数，此时GBDT退化为Adaboost算法。另一种方法是用类似于逻辑回归的对数似然损失函数的方法。也就是说，我们用的是类别的预测概率值和真实概率值的差来拟合损失。本文仅讨论用对数似然损失函数的GBDT分类。而对于对数似然损失函数，我们又有二元分类和多元分类的区别。

4.1、二元GBDT分类算法

对于二元GBDT，如果用类似于逻辑回归的对数似然损失函数，则损失函数为：
在这里插入图片描述
其中 y∈{−1,+1}。则此时的负梯度误差为

对于生成的决策树，我们各个叶子节点的最佳负梯度拟合值为

由于上式比较难优化，我们一般使用近似值代替

除了负梯度计算和叶子节点的最佳负梯度拟合的线性搜索，二元GBDT分类和GBDT回归算法过程相同。

五、GBDT常用损失函数

5.1、对于分类算法，其损失函数一般有对数损失函数和指数损失函数两种:

如果是指数损失函数，则损失函数表达式为
$L (y, f (x)) = e x p (- y f (x))$
如果是对数损失函数，分为
二元分类： $L (y, f (x)) = l o g (1 + e x p (- y f (x)))$
多元分类： $L(y,f(x))=−\sum_{k=1}^Ky_k\log p_k(x)$

5.2、对于回归算法，常用损失函数有如下4种:

均方差，这个是最常见的回归损失函数了 $L(y,f(x))=(y−f(x))^2$
绝对损失，这个损失函数也很常见 $L (y, f (x)) = ∣ y - f (x) ∣$
对应负梯度误差为：
$sign(y_i−f(x_i))$
Huber损失，它是均方差和绝对损失的折衷产物，对于远离中心的异常点，采用绝对损失，而中心附近的点采用均方差。这个界限一般用分位数点度量。损失函数如下：

对应的负梯度误差为：
分位数损失。它对应的是分位数回归的损失函数，表达式为

其中θ为分位数，需要我们在回归前指定。对应的负梯度误差为：

对于Huber损失和分位数损失，主要用于健壮回归，也就是减少异常点对损失函数的影响。

六、GBDT小结

GBDT主要的优点有：

可以灵活处理各种类型的数据，包括连续值和离散值。
在相对少的调参时间情况下，预测的准确率也可以比较高。这个是相对SVM来说的。
使用一些健壮的损失函数，对异常值的鲁棒性非常强。比如 Huber损失函数和Quantile损失函数。

　GBDT的主要缺点有：

由于弱学习器之间存在依赖关系，难以并行训练数据。不过可以通过自采样的SGBT来达到部分并行。

以上就是GBDT的原理总结。

若只如初見~~

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
集成学习之梯度提升树(GBDT)原理总结

一、GBDT概述 GBDT也是集成学习Boosting中的一种算法，但是却和传统的Adaboost有很大的不同。Adaboost 是利用前一轮迭代弱学习器的误差率来更新训练集的权重，这样一轮轮的迭代下去。GBDT也是迭代，但GBDT每一次的计算是都为了减少上一次的残差，进而在残差减少（负梯度）的方向上建立一个新的模型，其弱学习器限定了只能使用CART回归树模型，同时迭代思路和Adaboost也有所不同。 1.1、下面看个年龄预测的例子。简单起见，假定训练集只有4个人：A,B,C,D
复制链接

扫一扫