xgboost多分类原理_翻译|XGboost的原理

BalaBala

在上海实践的时候一个师兄说XGBoost在工业界的应用很广,之前曾经用到过但是没有仔细了解,想简单了解一下。看了一些教程感觉还是官方文档的讲解是最好的,于是趁着假期翻译了一下。水平有限,欢迎批评指正。

XGBoost 指的是极致梯度提升树(Extreme Gradient Boosting)。梯度提升树(Gradient Boosting) 是由Friedman在论文 《贪心函数逼近:一种梯度提升机》(Greedy Function Approximation: A Gradient Boosting Machine )中提出的。本文是一篇梯度提升树的指南,大部分内容取自XGBoost的提出者:陈天奇大佬的幻灯片。

梯度提升树被提出和应用已经有一段时间了,也有很多关于它的材料。这篇指南会使用监督学习的基本原理来完整地、有条理地介绍提升树。我们觉得这篇介绍和之前的相比更加清晰和正式,希望它可以推动XGBoosted 的使用和模型表述。

1.监督学习的基本原理模型和参数目标函数:损失项+正则项为什么介绍一般性原则?2. 决策树集成(Decision Tree Ensembles)3. 提升树(Tree Boosting)递增训练(Additive Training)模型复杂度结构分(The Structure Score)树结构的学习4. XGBoost后记

1.监督学习的基本原理

XGBoosted用于解决监督学习(supervised learning)问题,简单来说就是利用训练数据x来预测目标变量y。在使用提升树之前,让我们首先来复习一下监督学习的基本原理。

模型和参数

监督学习的模型结构一般是用输入的数据x来预测y。一个常见的例子是线性模型,预测模型是这样的:d32d84122d002eb44efb2c2e80bc389a.png。可以看出,这是输入特征的加权线性组合。预测值根据任务的不同,可以有不同的解释,也就是回归或分类。比如,在logistic 回归中,可以把预测值通过logistic 变换来得到被认为是正样本的概率;当我们想根据输出来排名的时候,也可以把预测值转化成排名的名次。

监督学习中的参数是未知的,也就是我们需要从模型中学习的。在线性回归中的参数是系数θ。通常我们会也使用θ来表示参数。(当然了,一个模型会有许许多多的参数,这里的定义有些草率,但是能用。)

目标函数:损失项+正则项

通过对y的合理选择,我们可以用它来表示多种任务,比如回归、分类、排名问题等。训练模型的任务就是找到能够符合训练数据x和标签y的最佳参数。为了训练模型,我们需要定义目标函数来衡量模型与训练数据的匹配程度。

目标函数的一个显著特征是由训练损失项正则化项两部分组成:383c0ccc563abee3d9595bf1092b1e1a.png
其中,L是训练的损失项,Ω是正则化项。损失项衡量了我们的模型相对于训练数据的预测效果。L常见的一个选择是最小均方误差(mean squared error),即:048c79d1894b2edb63920994494957cb.png
另一个常见的损失项是logistic 损失项,用于logistic 回归:e698dad0b8b4e0a91b3e7b3e3b8c8e3f.png
很多人经常会忘记添加正则化项。正则化项控制了模型的复杂度,避免了过拟合。这听起来有点抽象,所以让我们考虑下面的问题。给定图像左上角的输入数据点,要求你拟合一个阶梯函数。另外三幅图中你觉得哪个拟合的最好?

b7d3edbcbe74abb6814929e5e4e8d4dc.png

标红的模型是正确答案。可以说一下你觉得这个图像看起来是不是一个合理的拟合。模型预测的一般原则是 越简单、越准确 越好。这两者之间的权衡在机器学习中被称为偏见 方差权衡 (bias-variance tradeoff)

为什么介绍一般性原则?

以上介绍的原理构成了监督学习的基本要素,它们是在机器学习领域是必备的内容。例如,你应该能够描述梯度提升树和随机森林之间的差异和共性。以一种形式化的方式理解这个过程,还有助于我们理解我们的学习目标,以及理解一些启发式的方法(比如剪枝和平滑)背后的道理。

2. 决策树集成(Decision Tree Ensembles)

好了,现在我们已经介绍了监督学习的组成要素,接下来让我们开始了解真正的树模型。首先,我们需要学习一下XGBoost使用的模型:决策树集成模型(decision tree ensembles)。树集成模型包含了一系列分类和回归的树模型(CART)。这里是使用CART来判断一个人是否喜欢电脑游戏的例子:

27e96787c82921359a33654aa18926c7.png

我们把家庭成员分到不同的叶节点并赋予一个分数。CART与决策树稍有不同,决策树的叶节点只包含决策值,而在CART中,真实的分数与每一片叶子相关。相比于分类问题,这样做使我们有了更多的解释性,还允许我们采用统一的优化方法,我们将在本教程的后面部分看到这一点。

通常情况下一棵树的预测效果并不理想,我们会使用集成(Ensembles)模型,把许多树的预测结果加和起来

d43f127b9cccb2eb210a9e2196ad9eab.png

这里是集成两个树的例子。最终的得分是由每棵树的得分加起来得到的。如果仔细看这个例子,会发现这两棵树是 互补 的。数学上,我们可以把模型写成这种形式:

473bd12e873bea5d4b62f378f4d2cb84.png
K是树的数量,f是函数空间F的一个函数,F是所有可能的CART构成的集合。需要优化的目标函数是:9421a3397fc80d09344bbc88acde68c6.png
这里还有一个有趣的巧合:想想在随机森林中我们使用的模型是什么?没错也是树集成!所以事实上随机森林(random forests)和提升树(boosted trees)是一样的模型;区别仅仅在于我们如何训练他们罢了。也就是说,如果你写了一个使用树集成模型的预测程序,那么你不需要再写一个模型就可以让他直接用于随机森林模型。

3. 提升树(Tree Boosting)

现在我们已经介绍完了模型,接下来开始我们的训练。问题来了:如何训练这些树呢?和许多监督学习模型一样,答案是:定义一个目标函数然后优化它

下面是目标函数(记得它应该始终包括训练误差项和正则化项):67e202e49adf1760558f1a8f8886bab1.png

递增训练(Additive Training)

首先我们要问:这些树模型的参数是什么?可以发现我们需要学习的是这些函数f,每一个包含了一个树的结构和一组叶子节点的分数。树结构的学习比传统的使用梯度下降就可以解决的优化模型要难很多,一次学到所有的树的参数是很困难的。因此,我们选择递增的策略:把我们已经学习到的固定,一次只增加一棵树。我们第t步的预测值写作4ebdefc6879698c3158f3eca053284b8.png。那么就可以得到:

f995d841f9024c2e9f85c55b91c79c53.png

那么我们还需要问:每一步要增加哪一棵树呢?一个很自然的想法是增加一棵使目标函数最优的树48e587314ffe06271e77b5119c74659b.png

如果我们考虑使用最小均方误差(MSE)作为我们的损失函数,目标函数变为:0ad27d12c42f2dfb4a6599fcb95b487f.png

MSE最后结果的格式很友好,只包含一个一次项(常被称作残差)和一个二次项。在一般情况下不会这么友好,那么我们会利用泰勒展开把损失函数展开到二阶。c26159123c779e06aca7145c51da807f.png

其中:213c44f6666eb5537741ca6ce3092832.png

常量无关紧要,把他们去除之后,在第t步的目标函数就变为:6a7ed2f56ea048ab249dca356b283952.png
这就是我们新的树结构要优化的目标函数,它的一个很重要的好处是目标函数的值只依赖于gi和hi。这也说明了XGBoost是如何支持自定义的损失函数的。使用gi和hi作为输入,我们可以使用同一个求解器解决各种使用不同损失函数的问题,包括logistic 回归和配对排名(pairwise ranking)。

模型复杂度

我们已经介绍了训练的步骤,但是稍等,还有一个很重要的东西不要忘记:正则化项。我们需要定义模型的复杂度65860fc9c604649acc4945ef65b2e622.png。定义之前,让我们先精练一下树的定义c184d1626528f8c7436b27545d72d817.pngbf4fa7faa014665050645c81007f87a8.png
这里w是表示叶子分数的向量;q是一个函数,它把每一个数据点对应到一个对应的叶子上;T是叶子的数量。在XGBoost中,我们把复杂度定义为:c8895d7eaebd466ac22290f2cb942bb0.png
当然,定义复杂度的方法不止一种,但是这种方法在实践中很有效。正则化项是大多数树模型的包中不仔细对待、甚至直接忽略掉的一部分,这是因为传统的树学习只强调改善杂质,控制复杂度的任务则交给了启发性。通过正式定义复杂度,我们可以更好地了解我们正在学习的内容,并获得在实际应用中表现良好的模型。

结构分(The Structure Score)

这里就是推导中神奇的地方了。重新构造树模型后,我们可以将第t棵树的目标函数写成:f8c416e388ebd6346e5cb762366362fd.png5519490cd888f29b2594ea26fbf849ef.png 是分配到第j 个叶节点的数据的索引的集合。注意到我们在第二行改变了求和的指标,因为分到同一个叶节点上的所有数据的得分是一样的。令:0bc952dd139791f560460f99a40a9396.png ,092594c8b23d1f378721bbd97b2f07da.png,我们可以进一步简化表达式:bbbc3f45ebfef957cea9282286ebd070.png
在这个方程里w 彼此独立,式子 5c80b79e0be1fce496e5f926fa659177.png 是二次的,对于给定的树结构170ce81f41e5e7df8fd4fc3d3222a62a.png 可以得出最优的参数w 和最优的目标函数是:fb05e995c3875c6bc47982aa5ad9a8e9.png
最后一个方程测量了一个树结构4594bc4d8fe46e437527cdef1dc15690.png的优劣程度

76abae312780ee611c784a0639dfa87d.png

树结构的学习

现在我们已经可以衡量一棵树的好坏。理想情况下,我们可以枚举出所有可能的树结构然后选出一个最好的;但是在实际应用中这是很难做到的,因此我们一次只优化一棵树的一层。具体来说就是,我们试着把原有的某个叶节点分成两个新的叶节点,这个操作获得的增益就是:1d8f5bb318653db186a74c043702af33.png
这个公式可以分解为以下4个部分:1. 新的左节点的分数;2. 新的右节点的分数;3. 原始叶节点的分数;4. 新增加叶节点的正则项。我们可以发现一个重要的事实:如果增益小于γ,我们最好的选择是不增加这个分支。这正式基于树模型的剪枝技术!通过使用监督学习的原理,我们可以很自然地得出这些技术起作用的原因:)

对于实数值的数据,我们经常希望找到最优的分割点。为了高效的完成这个工作,我们将所有是实数的实例值按顺序排列,如下图所示:

fc79a968add80073b44389e6cb9d4a20.png

从左到右逐个扫描,找到所有可能的分割情况并计算出他们的值,这样我们就能有效的找到最优的分割点。

4. XGBoost后记

到现在为止,你已经理解了什么是提升树(boosted trees)了。也许你会问,关于XGBoost的介绍在哪里呢?准确的说,XGBoost是一个受本文介绍的原理启发而产生的一个工具!更重要的是,它是在系统优化机器学习原理的基础上发展起来的。这个库的目标是将计算机的计算能力开发到极致,以提供一个可伸缩的(scalable)可移植的(portable )精确的(accurate)工具库。希望您能使用它,更重要的是,希望您能向社区贡献您的智慧(比如代码、例子、指南)。

392978d406e58a04fb379cb915bb7ea8.png 3b2f01c3bd4055e2cd50343ed471d628.png c8af5abc5321e6030949c2c506e6ee0b.gif

扫码找对象

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值