干货 | 梯度提升决策树GBDT（gradient-boost decision tree）「AI基础」

最新推荐文章于 2023-05-23 20:25:53 发布

九三智能控v

最新推荐文章于 2023-05-23 20:25:53 发布

阅读量593

点赞数 1

版权

关注：决策智能与机器学习，深耕AI脱水干货

作者 | 机器学习炼丹术

来源 | 机器学习炼丹术

先缕一缕几个关系：

1 基本概念

【Boost】就是让多个弱分类器，通过不同的集成方式，来让多个弱分类器变成一个强分类器。

【gradient-boost】梯度提升。简单的说，先训练一个弱分类器，然后弱分类器和目标值之间的残差，作为下一个弱分类器训练的目标值。

这里有一个非常简单的例子

对于GBDT，学习梯度还是学习残差？从上面的那个例子来看，是学习残差的。

其实，从来GBDT都是学习梯度的，学习残差只是学习梯度的一个特例!

如果我们是在做一个回归任务（就像是上面例子中预测年龄），采用平方损失：其中是真实数值，是模型预测的值。

然后想求取这个关于的梯度，那就是：

所以残差在平方损失的情况下，就是等于负梯度,所以两者一回事。

对于数据不干净，没有清晰掉异常值的数据样本。使用平方损失对异常值过于敏感了：

敏感就是因为，异常值的损失过大了，导致下一个弱分类器就会强行拟合这个5.445的样本，拟合异常值就意味着弱化了泛化能力，从而整体精度就可能会下降。

所以，这里在回归问题中，也可以考虑使用下面的两个损失函数：
Absolute loss:
Huber loss: 这个是设置一个阈值，当小于这个阈值的时候，采用平方损失，当大于这个阈值的时候，采用类似于绝对损失的线性损失：这里看一下huber loss的函数图像：

就是一个平方损失，一个线性损失。

然后看一下平方损失，绝对损失，huber损失对于异常值的容忍程度：

【小小的总结】GBDT是基于boosting的思想，串行地构造多棵决策树来进行数据的预测，它是在损失函数所在的函数空间中做梯度下降，即把待求的决策树模型当作参数，每轮迭代都去拟合损失函数在当前模型下的负梯度，从而使得参数朝着最小化损失函数的方向更新。

【现在还用吗？】学肯定是要学的，因为GBDT是非常经典的集成模型，知道了可以扩充知识面。但是其实在2010年横霸大数据竞赛的，现在10年过去了，在竞赛中已经是老古董了。

【GBDT vs Adaboost】Adaboost是boost集成的另一个非常经典的算法。Adaboost只能采用指数损失的二分类任务，而GBDT可以使用各种可微分的损失函数来处理多分类、回归等任务。

【问题：为什么GBDT模型都会使用CART（分类和回归树）来作为基模型呢？】

这与决策树算法自身的优点有很大的关系。决策树可以认为是if-then规则的集合，易于理解，可解释性强，预测速度快。同时，决策树算法相比于其他的算法需要更少的特征工程，比如可以不用做特征标准化，可以很好的处理字段缺失的数据，也可以不用关心特征间是否相互依赖等。

决策树能够自动组合多个特征，它可以毫无压力地处理特征间的交互关系并且是非参数化的，因此你不必担心异常值或者数据是否线性可分（举个例子，决策树能轻松处理好类别A在某个特征维度x的末端，类别B在中间，然后类别A又出现在特征维度x前端的情况）不过，单独使用决策树算法时，有容易过拟合缺点。

所幸的是，通过各种方法（比如剪枝、最大树深度、最小叶子样本数量、正则项等），抑制决策树的复杂性，降低单颗决策树的拟合能力，再通过梯度提升的方法集成多个决策树，最终能够很好的解决过拟合的问题。由此可见，梯度提升方法和决策树学习算法可以互相取长补短，是一对完美的搭档。

【还有什么抑制单棵决策树的复杂度的方法？换言之，决策树的避免过拟合的方法？】

交流合作

请加微信号：yan_kylin_phenix，注明姓名+单位+从业方向+地点，非诚勿扰。

关注