8.Xgboost

最新推荐文章于 2022-11-15 16:03:25 发布

涂作权的博客

最新推荐文章于 2022-11-15 16:03:25 发布

阅读量758

点赞数

分类专栏： # 机器学习算法和知识点(学习笔记)

本文链接：https://blog.csdn.net/tototuzuoquan/article/details/117340954

版权

机器学习算法和知识点(学习笔记) 专栏收录该内容

30 篇文章 15 订阅

订阅专栏

8.Xgboost

8.1.XGBoost算法

https://www.cnblogs.com/mantch/p/11164221.html

XGBoost是陈天奇等人开发的一个开源机器学习项目，高效地实现了GBDT算法并进行了算法和工程上的许多改进，被广泛应用在Kaggle竞赛及其他许多机器学习竞赛中并取得了不错的成绩。

说到XGBoost，不得不提GBDT(Gradient Boosting Decision Tree)。因为XGBoost本质上还是一个GBDT，但是力争把速度和效率发挥到极致，所以叫X (Extreme) GBoosted。包括前面说过，两者都是boosting方法。

关于GBDT，这里不再提，可以查看我前面一篇的介绍。点此跳转（https://github.com/NLP-LOVE/ML-NLP/blob/master/Machine%20Learning/3.2%20GBDT/3.2%20GBDT.md）

8.1.1.什么是XGBoost

8.1.2.XGBoost树的定义

先来举个例子，我们要预测一家人对电子游戏的喜好程度，考虑到年轻和年老相比，年轻更可能喜欢电子游戏，以及男性和女性相比，男性更喜欢电子游戏，故先根据年龄大小区分小孩和大人，然后再通过性别区分开是男是女，逐一给各人在电子游戏喜好程度上打分，如下图所示：
在这里插入图片描述
就这样，训练出了2棵树tree1和tree2，类似之前gbdt的原理，两棵树的结论累加起来便是最终的结论，所以小孩的预测分数就是两棵树中小孩所落到的结点的分数相加：2 + 0.9 = 2.9。爷爷的预测分数同理：-1 + （-0.9）= -1.9。具体如下图所示：
在这里插入图片描述
恩，你可能要拍案而起了，惊呼，这不是跟上文介绍的GBDT乃异曲同工么？

事实上，如果不考虑工程实现、解决问题上的一些差异，XGBoost与GBDT比较大的不同就是目标函数的定义。XGBoost的目标函数如下图所示：
在这里插入图片描述
其中：

红色箭头所指向的L即为损失函数
（比如平方损失函数：）
红色方框所框起来的正则项（包括L1正则、L2正则）
红色圆圈所圈起来的为常数项。
对于、XGBoost利用泰勒展开三项，做一个近似。表示的是其中一颗回归树。
看到这里可能有些读者会头晕了，这么多公式，我在这里只做一个简要式的讲解，具体的算法细节和公式求解请查看这篇博文，讲得很仔细：通俗理解kaggle比赛大杀器xgboost

XGBoost的核心算法思想不难，基本就是：
1.不断地添加树，不断地进行特征分裂来生长一棵树，每次添加一个数，其实是学习一个新函数f(x),去拟合上次预测的残差。
2.当我们训练完成得到k棵树，我们要预测一个样本的分数，其实就是根据这个样本的特征，在每棵树中会落到对应的一个叶子节点，每个叶子节点就对应一个分数。
3.最后只需要将每棵树对应的分数加起来就是该样本的预测值。

显然，我们的目标是要使得树群的预测值在这里插入图片描述尽量接近真实值,而且有尽量大的泛化能力。类似之前GBDT的套路，XGBoost也是需要将多棵树的得分累加得到最终的预测得分（每一次迭代，都在现有树的基础上，增加一棵树去拟合前面树的预测结果与真实值之间的残差）。
在这里插入图片描述
那接下来，我们如何选择每一轮加入什么f呢？答案是非常直接的，选取一个f来使得我们的目标函数尽量最大地降低。这里f可以使用泰勒展开公式近似。

实质是把样本分配到叶子结点会对应一个obj，优化过程就是obj优化。也就是分裂节点到叶子不同的组合，不同的组合对应不同obj，所有的优化围绕这个思想展开。到目前为止我们讨论了目标函数中的第一个部分：训练误差。接下来我们讨论目标函数的第二个部分：正则项，即如何定义树的复杂度。

8.1.3.正则项：树的复杂度

XGBoost对树的复杂度包含了两个部分：

一个是树里面叶子节点的个数T
一个是树上叶子节点的得分w的L2模平方（对w进行L2正则化，相当于针对每个叶结点的得分增加L2平滑，目的是为了避免过拟合）

我们再来看一下XGBoost的目标函数（损失函数揭示训练误差 + 正则化定义复杂度）：
在这里插入图片描述
我们再来看一下XGBoost的目标函数（损失函数揭示训练误差 + 正则化定义复杂度）：

正则化公式也就是目标函数的后半部分，对于上式而言，是整个累加模型的输出，正则化项是则表示树的复杂度的函数，值越小复杂度越低，泛化能力越强。

8.1.4.树该怎样长

很有意思的一个事是，我们从头到尾了解了xgboost如何优化、如何计算，但树到底长啥样，我们却一直没看到。很显然，一棵树的生成是由一个节点一分为二，然后不断分裂最终形成为整棵树。那么树怎么分裂的就成为了接下来我们要探讨的关键。对于一个叶子节点如何进行分裂，XGBoost作者在其原始论文中给出了一种分裂节点的方法：枚举所有不同树结构的贪心法

不断地枚举不同树的结构，然后利用打分函数来寻找出一个最优结构的树，接着加入到模型中，不断重复这样的操作。这个寻找的过程使用的就是贪心算法。选择一个feature分裂，计算loss function最小值，然后再选一个feature分裂，又得到一个loss function最小值，你枚举完，找一个效果最好的，把树给分裂，就得到了小树苗。

总而言之，XGBoost使用了和CART回归树一样的想法，利用贪婪算法，遍历所有特征的所有特征划分点，不同的是使用的目标函数不一样。具体做法就是分裂后的目标函数值比单子叶子节点的目标函数的增益，同时为了限制树生长过深，还加了个阈值，只有当增益大于该阈值才进行分裂。从而继续分裂，形成一棵树，再形成一棵树，每次在上一次的预测基础上取最优进一步分裂/建树。

8.1.5.如何停止树的循环生成

凡是这种循环迭代的方式必定有停止条件，什么时候停止呢？简言之，设置树的最大深度、当样本权重和小于设定阈值时停止生长以防止过拟合。具体而言，则

1.当引入的分裂带来的增益小于设定阀值的时候，我们可以忽略掉这个分裂，所以并不是每一次分裂loss function整体都会增加的，有点预剪枝的意思，阈值参数为（即正则项里叶子节点数T的系数）；
2.当树达到最大深度时则停止建立决策树，设置一个超参数max_depth，避免树太深导致学习局部样本，从而过拟合；
样本权重和小于设定阈值时则停止建树。什么意思呢，即涉及到一个超参数-最小的样本权重和min_child_weight，和GBM的 min_child_leaf 参数类似，
3.但不完全一样。大意就是一个叶子节点样本太少了，也终止同样是防止过拟合；

8.1.6.XGBoost与GBDT有什么不同

除了算法上与传统的GBDT有一些不同外，XGBoost还在工程实现上做了大量的优化。总的来说，两者之间的区别和联系可以总结成以下几个方面。
GBDT是机器学习算法，XGBoost是该算法的工程实现。
在使用CART作为基分类器时，XGBoost显式地加入了正则项来控制模型的复杂度，有利于防止过拟合，从而提高模型的泛化能力。
GBDT在模型训练时只使用了代价函数的一阶导数信息，XGBoost对代价函数进行二阶泰勒展开，可以同时使用一阶和二阶导数。
传统的GBDT采用CART作为基分类器，XGBoost支持多种类型的基分类器，比如线性分类器。
传统的GBDT在每轮迭代时使用全部的数据，XGBoost则采用了与随机森林相似的策略，支持对数据进行采样。
传统的GBDT没有设计对缺失值进行处理，XGBoost能够自动学习出缺失值的处理策略。

8.1.7.为什么XGBoost要用泰勒展开，优势在哪里？

XGBoost使用了一阶和二阶偏导, 二阶导数有利于梯度下降的更快更准. 使用泰勒展开取得函数做自变量的二阶导数形式, 可以在不选定损失函数具体形式的情况下, 仅仅依靠输入数据的值就可以进行叶子分裂优化计算, 本质上也就把损失函数的选取和模型算法优化/参数选择分开了. 这种去耦合增加了XGBoost的适用性, 使得它按需选取损失函数, 可以用于分类, 也可以用于回归。

8.2.XGBoost算法原理小结

本部分转自：https://www.cnblogs.com/pinard/p/10979808.html

8.2.1.从GBDT到XGBoost

作为GBDT的高效实现，XGBoost是一个上限特别高的算法，因此在算法竞赛中比较受欢迎。简单来说，对比原算法GBDT，XGBoost主要从下面三个方面做了优化：

一是算法本身的优化：在算法的弱学习器模型选择上，对比GBDT只支持决策树，还可以直接很多其他的弱学习器。在算法的损失函数上，除了本身的损失，还加上了正则化部分。在算法的优化方式上，GBDT的损失函数只对误差部分做负梯度（一阶泰勒）展开，而XGBoost损失函数对误差部分做二阶泰勒展开，更加准确。算法本身的优化是我们后面讨论的重点。

二是算法运行效率的优化：对每个弱学习器，比如决策树建立的过程做并行选择，找到合适的子树分裂特征和特征值。在并行选择之前，先对所有的特征的值进行排序分组，方便前面说的并行选择。对分组的特征，选择合适的分组大小，使用CPU缓存进行读取加速。将各个分组保存到多个硬盘以提高IO速度。

三是算法健壮性的优化：对于缺失值的特征，通过枚举所有缺失值在当前节点是进入左子树还是右子树来决定缺失值的处理方式。算法本身加入了L1和L2正则化项，可以防止过拟合，泛化能力更强。

在上面三方面的优化中，第一部分算法本身的优化是重点也是难点。现在我们就来看看算法本身的优化内容。

8.2.2.XGBoost损失函数

在看XGBoost本身的优化内容前，我们先回顾下GBDT的回归算法迭代的流程，详细算法流程见梯度提升树(GBDT)原理小结（https://www.cnblogs.com/pinard/p/6140514.html）第三节，对于GBDT的第t颗决策树，主要是走下面4步：
在这里插入图片描述

8.3.XGBoost入门第一讲

转自：https://zhuanlan.zhihu.com/p/27816315

8.3.1.Boosted Trees介绍

XGBoost是“Extreme Gradient Boosting”的简称，其中“Gradient Boosting”来源于附录1.Friedman的这篇论文。本文基于 gradient boosted tree，中文可以叫梯度提升决策树，下面简称GBDT，同时也有简称GBRT，GBM。

8.3.2.监督学习

XGBoost 主要是用来解决有监督学习问题，此类问题利用包含多个特征的训练数据在这里插入图片描述，来预测目标变量。在我们深入探讨GBDT前，我们先来简单回顾一下监督学习的一些基本概念。

8.3.3.模型与参数

在监督学习中模型(model)表示一种数学函数，通过给定在这里插入图片描述来对进行预测。以最常见的线性模型（linear model）举例来说，模型可以表述为
，这是一个输入特性进行线性加权的函数。那么针对预测值的不同，可以分为回归或者分类两种。
在监督学习中参数（parameters）是待定的部分，我们需要从数据中进行学习得到。在线性回归问题中，参数用在这里插入图片描述来表示。

答案是用红色标注出来的这幅图。为什么呢？因为我们对于好的模型的判断依据是简单（simple）并且准确（predictive）。但这两者又是相互矛盾的，在机器学习中我们也把这两者也用 bias-variance 来表述。

8.3.5.复合树模型（Tree Ensemble）

在前面我们已经介绍了监督学习，现在让我们开始了解树模型。首先先来了解一下xgboost所对应的模型：复合树模型。复合树模型是一组分类和回归树（classification and regression trees - CART）。这里我们举CART中的一个例子，一类分类器用来辨别某人是否喜欢计算机游戏。
在这里插入图片描述
我们把家庭中的成员分到不同的叶子节点，同时每个叶子节点上都有一个分数。CART与决策树相比，细微差别在于CART的叶子节点仅包含判断分数。在CART中，相比较与分类结果，每个叶子节点的分数给我们以更多的解释。这让CART统一优化节点更为容易，这在后面会有具体介绍。

通常情况下，在实践中往往一棵树是不够用的。这个时候往往需要把多棵树的预测结果综合起来，这就是所谓的复合树模型。
在这里插入图片描述
上面就是由两棵树组成的复合树的例子。每棵树上的分数简单相加就得到了最终的分数。用数学式子可以表达如下：

现在问题来了，随机森林对应的模型是什么呢？对了，也是复合树模型。所以在模型的表述上，随机森林和提升树是一样的，他们俩的区别只是在于如何训练。这也就意味着，如果要写一个关于复合树模型的预测服务，我们只需要写一个就可以同时支持随机森林和提升树。

8.3.6.提升树（Tree Boosting）

介绍了模型之后，让我们看看训练部分。那么我们是怎么训练这些树的呢？对于所有的监督学习模型，答案也都是同样，只需要做两件事，定义目标函数，然后优化它。

假如我们有如下目标函数（需要切记目标函数必须包含损失函数及正则项）
在这里插入图片描述

8.3.7.增量训练（Additive Training）

首先我们需要问的是，这些树的参数是什么？我们会发现，我们所要学习的就是这些 fi方法，每个方法中定义树的结构以及叶子节点的分数。这比传统最优化问题要更难，传统最优化问题我们可以通过梯度来解决。而且我们无法在一次训练所有的树。相反，我们用增量（additive）的方式：每一步我们都是在前一步的基础上增加一棵树，而新增的这棵树是为修复上一颗树的不足。，我们把每t步的预测用在这里插入图片描述表示，这样我们就有了：

这里还有疑问的是，在每一步中如何确定哪棵树是我们需要的呢？一个很自然的想法就是，增加这棵树有助于我们的目标函数。