Kaggle Master解释梯度提升（Gradient Boosting）（译）

最新推荐文章于 2023-05-26 10:31:45 发布

weixin_30519071

最新推荐文章于 2023-05-26 10:31:45 发布

阅读量250

点赞数

文章标签：人工智能数据结构与算法

原文链接：http://www.cnblogs.com/42-Curry/p/9801599.html

版权

如果说线性回归算法像丰田凯美瑞的话，那么梯度提升（GB）方法就像是UH-60黑鹰直升机。XGBoost算法作为GB的一个实现是Kaggle机器学习比赛的常胜将军。不幸的是，很多从业者都只把这个算法当作黑盒使用（包括曾经的我）。这篇文章的目的就是直观而全面的介绍经典梯度提升方法的原理。

原理说明

我们先从一个简单的例子开始。我们想要基于是否打电子游戏、是否享受园艺以及是否喜欢戴帽子三个特征来预测一个人的年龄。我们的目标函数是最小化平方和，将用于训练我们模型的训练集如下：

ID	年龄	喜欢园艺	玩电子游戏	喜欢戴帽子
1	13	False	True	True
2	14	False	True	False
3	15	False	True	False
4	25	True	True	True
5	35	False	True	True
6	49	True	False	False
7	68	True	True	True
8	71	True	False	False
9	73	True	False	True

我们对数据可能有以下直觉：

喜欢园艺的人可能年纪偏大
喜欢电子游戏的人可能更年轻
喜欢戴帽子可能跟年纪关系不大

对于这些直觉我们可以很快在数据中检验

特征	False	True
喜欢园艺	「13，14，15，35」	「25，49，68，71，73」
玩电子游戏	「49，71，73」	「13，14，15，25，35，68」
喜欢戴帽子	「14，15，49，71」	「13，25，35，68，73」

现在我们尝试用回归树来建模数据。开始时，我们要求每个叶子结点都至少有三个数据点。这样回归树会从喜欢园艺这个特征开始分裂（split），发现满足条件，分裂结束。结果如下图：

结果还不错，不过我们没有用上玩电子游戏这个特征。现在我们尝试将限制条件改为叶子结点要有两个数据点。结果如下：

这棵树中我们三个特征都用上了，但喜欢戴帽子这个特征多少与年龄无关，这意味着我们的回归树可能过拟合了。

此例中我们可以看出使用单个决策/回归树（decision/regression tree）的缺点：它无法叠加两个有重叠区域的有效特征（例如：喜欢园艺和玩电子游戏）。假设我们测量第一颗树的训练误差，结果将如下所示：

ID	年龄	Tree1 预测结果	Tree1 预测残差（Residual）
1	13	19.25	-6.25
2	14	19.25	-5.25
3	15	19.25	-4.25
4	25	57.2	-32.2
5	35	19.25	15.75
6	49	57.2	-8.2
7	68	57.2	10.8
8	71	57.2	13.8
9	73	57.2	15.8

现在我们可以用另一棵树Tree2来拟合Tree1的预测残差，结果如下：

现在我们可以注意到这颗回归树没有包括喜欢帽子这个特征（之前过拟合的回归树使用了这个特征）。这是因为这棵回归树可以在全体样本上考察特征，而之前过拟合的单棵回归树只能在局部考察特征。

现在我们可以在第一棵回归树的基础上加上第二棵“纠错”的回归树，结果如下：

PersonID	Age	Tree1 Prediction	Tree1 Residual	Tree2 Prediction	Combined Prediction	Final Residual
1	13	19.25	-6.25	-3.567	15.68	2.683
2	14	19.25	-5.25	-3.567	15.68	1.683
3	15	19.25	-4.25	-3.567	15.68	0.6833
4	25	57.2	-32.2	-3.567	53.63	28.63
5	35	19.25	15.75	-3.567	15.68	-19.32
6	49	57.2	-8.2	7.133	64.33	15.33
7	68	57.2	10.8	-3.567	53.63	-14.37
8	71	57.2	13.8	7.133	64.33	-6.667
9	73	57.2	15.8	7.133	64.33	-8.667

Tree1 SSE	Combined SSE
1994	1765

梯度提升方案1

受上面“纠错”树的启发，我们可以定义以下梯度提升方法：

用一个模型来拟合数据 F₁（x）= y
用另一个模型来拟合前一个模型预测的残差 h₁（x）= y - F₁（x）
用残差模型和原模型之和创建一个新模型 F₂（x）= F₁（x） + h₁（x）

我们可以很容易想到插入更多的模型来纠正之前模型的错误（译注，resnet可以看作一个例子）：

　　F_M(x) = F_M-1(x) + h_M-1(x), F₁(x) 为初始模型

因为我们第一步初始化了模型F₁（x），我们接下来每一步的任务是拟合残差： h_m(x) = y - F_m(x).

现在我们停下来观察一下，我们只是说h_m是一个“模型”-并没有说它一定要是一个基于树的模型。这就是梯度提升的一个优点，我们可以轻松引入任何模型，也就是说梯度提升只是用来迭代提升弱模型的。虽然理论上我们的弱模型可以是任何模型，但是实践中它几乎总是基于树的，所以我们现在把h_m就当作回归树也没有什么问题。

梯度提升方案2

我们现在来尝试像大多数梯度提升实现一样初始化-将模型初始化为只输出单一预测。因为我们的任务目前是最小化平方和误差，我们可以让初始化F₀为预测训练样本的均值：

现在我们可以递归的定义我们后续的模型了：

，for

其中h_m是基础模型之一，例如回归树。

这时你可能会考虑一个问题：如何选取超参数m。换句话说，我们该用多少次这种残差校正过程。一种方法是，最佳的m可以通过使用交叉验证（cross-validation）来测试不同的m来确定。

梯度提升方案3

到现在为止我们的目标都是最小化方差和（L2），但如果我们想最小化绝对值误差和呢（L1）？我们很容易想到通过改变我们基础模型（回归树）的目标函数来实现这个，但这么做有几个缺点：

数据量较大时计算上可能很昂贵（每次分裂我们都需要遍历以找到中位数）
上面所说的GB不限制基础模型的特性将消失，这样我们将只能用支持此目标函数的基础模

让我们试着找找一个更漂亮的解决方案。回顾一下上面的例子，我们会让F₀预测训练样本的中位数，也就是35，来最小化绝对值和。现在我们能计算F₀的预测残差了：

PersonID	Age	F0	Residual0
1	13	35	-22
2	14	35	-21
3	15	35	-20
4	25	35	-10
5	35	35	0
6	49	35	14
7	68	35	33
8	71	35	36
9	73	35	38

观察到第一个和第四个训练样本的预测残差为-22和-10. 假设我们能让每个预测都离各自的真实值更近1个单位，这样样本1和样本4的平方和误差将分别减少43和19，而两者绝对值误差都将减少1。通过上面的计算我们可以发现，使用平方误差的回归树会主要关注减少第一个训练样本的预测残差，而使用绝对值误差的回归树会同样关注这两个样本。现在我们接着训练h₀来拟合F₀的预测残差，与之前不同的是，我们将使用F₀的预测损失函数的导数来训练h₀。使用绝对值误差时，h_m只是考虑F_m预测残差的符号（平方误差时还会考虑残差的大小）。在h中的样本被分到各个叶子结点之后，每个叶子结点的平均梯度就能被计算出来并加权用于更新模型：（这样各叶子结点的损失将减少，实际使用中个叶子结点的权重可能不同）。

梯度下降（Gradient Descent）

现在让我们用GD让上述想法更形式化一点。考虑如下可导损失函数：

目标是找到一对来最小化 L。我们可以注意到这个损失函数可以看作计算两个数据点的均方差，两个数据点的真实值分别为 15 和 25。虽然我们能解析的找到这个损失函数的最小值，但GD能帮我们优化更复杂的损失函数（也许不能找到解析解）。

初始化：

总迭代数 M = 100

起始预测

步长

For iteration $m=1$ to $M$ :
1. 计算 $L$ 在上次预测点 $s\textsuperscript{(m-1)}$ 处的梯度
2. 将预测点向最陡梯度方向移动步长 $\gamma$ ，也就是 $s\textsuperscript{m} = s\textsuperscript{(m-1)} - \gamma \nabla L(s\textsuperscript{(m-1)})$

如果步长 $\gamma$ 够小且M足够大的话，最终预测s^M将会收敛到L的最小值。

利用梯度下降

现在让我们在梯度提升模型中使用GD。将我们的目标函数记为L，起始模型记为F₀（x）。在迭代次数 m = 1时，计算L对F₀（x）的梯度。然后我们用一个弱模型拟合梯度，以使用回归树为例，叶子结点中有相似特征的样本中会计算出平均梯度，然后使用平均梯度来更新模型，得到F₁。重复此过程直到我们得到F_m。

整理一下利用GD的梯度提升算法，描述如下：

初始化：

For m = 1 to M:

计算伪残差：

用拟合伪残差

计算步长（决策树的情况可以给每个叶子结点单独分配步长）

更新模型

为帮助你验证是否理解梯度提升算法，以下分别给出对例子问题使用L1和L2目标函数的结果。

L2损失函数

Age	F0	Pseudo Residual0	h0	gamma0	F1	Pseudo Residual1	h1	gamma1	F2
13	40.33	-27.33	-21.08	1	19.25	-6.25	-3.567	1	15.68
14	40.33	-26.33	-21.08	1	19.25	-5.25	-3.567	1	15.68
15	40.33	-25.33	-21.08	1	19.25	-4.25	-3.567	1	15.68
25	40.33	-15.33	16.87	1	57.2	-32.2	-3.567	1	53.63
35	40.33	-5.333	-21.08	1	19.25	15.75	-3.567	1	15.68
49	40.33	8.667	16.87	1	57.2	-8.2	7.133	1	64.33
68	40.33	27.67	16.87	1	57.2	10.8	-3.567	1	53.63
71	40.33	30.67	16.87	1	57.2	13.8	7.133	1	64.33
73	40.33	32.67	16.87	1	57.2	15.8	7.133	1	64.33

L1 损失函数

Age	F0	Pseudo Residual0	h0	gamma0	F1	Pseudo Residual1	h1	gamma1	F2
13	35	-1	-1	20.5	14.5	-1	-0.3333	0.75	14.25
14	35	-1	-1	20.5	14.5	-1	-0.3333	0.75	14.25
15	35	-1	-1	20.5	14.5	1	-0.3333	0.75	14.25
25	35	-1	0.6	55	68	-1	-0.3333	0.75	67.75
35	35	-1	-1	20.5	14.5	1	-0.3333	0.75	14.25
49	35	1	0.6	55	68	-1	0.3333	9	71
68	35	1	0.6	55	68	-1	-0.3333	0.75	67.75
71	35	1	0.6	55	68	1	0.3333	9	71
73	35	1	0.6	55	68	1	0.3333	9	71

梯度提升方案4

逐渐缩小步长/学习率（shrinkage），以帮助稳定收敛。

梯度提升方案5

行采样和列采样。不同采样技术之所以有效是因为不同采样回导致不同的树分叉-这意味着更多的信息。

实战中的梯度提升

梯度提升算法在实战中十分有效。其中最流行的实现 XGBoost 在 Kaggle 的比赛中屡次获奖。XGBoost 使用了许多小技巧来加速和提高准确率（特别是二阶梯度下降）。来自微软的LigtGBM最近也吸引了不少目光。

梯度提升算法还能做些什么呢？除了回归（regression），分类和排名也可以用到-只要损失函数是可微即可。分类应用中二元分类常用logistic function作损失函数，多元分类用softmax作损失函数。

原文链接：http://blog.kaggle.com/2017/01/23/a-kaggle-master-explains-gradient-boosting/

转载于:https://www.cnblogs.com/42-Curry/p/9801599.html

weixin_30519071

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Kaggle Master解释梯度提升（Gradient Boosting）（译）

如果说线性回归算法像丰田凯美瑞的话，那么梯度提升（GB）方法就像是UH-60黑鹰直升机。XGBoost算法作为GB的一个实现是Kaggle机器学习比赛的常胜将军。不幸的是，很多从业者都只把这个算法当作黑盒使用（包括曾经的我）。这篇文章的目的就是直观而全面的介绍经典梯度提升方法的原理。原理说明我们先从一个简单的例子开始。我们想要基于是否打电子游戏、是否享受园艺以及是否喜欢戴帽...
复制链接

扫一扫