决策树系列（四）：集成学习+boosting算法+提升树+GBDT(梯度提升决策树)_详细原理解析

最新推荐文章于 2024-04-10 11:04:31 发布

lanyuelvyun

最新推荐文章于 2024-04-10 11:04:31 发布

阅读量4.9k

点赞数 5

分类专栏：机器学习 # 决策树

本文链接：https://blog.csdn.net/lanyuelvyun/article/details/88736692

版权

1、GBDT简介

GBDT，英文全称是Gradient Boosting Decision Tree，梯度提升决策树，顾名思义，与梯度、boosting算法、决策树有关。是一种迭代的决策树算法，由多棵决策树组成，每一颗决策树也叫做基学习器，GBDT最后的结果就是将所有基学习器的结果相加。

从" GBDT累加所有树的结果作为最终结果 "这一点来看，我们就知道GBDT中的决策树是回归树，不是分类树。并且每棵树的结论并不是样本目标值本身，而是目标值的一个累加量。这就是GBDT的核心所在——每一棵树拟合的是之前所有树结论和的累加值。这个累加量在某些时候代表的是"残差 "，某些时候代表的是“残差的近似值”，这一点下面会展开。

2、集成算法

GBDT是boosting算法的一种，而boosting又是集成算法的一种，就先来讲讲集成算法，如果不想看，可直接跳到GBDT章节。

首先同步几种说法，以下几种说法代表的是同一种意思：基学习器=基分类器=基算法=基函数

什么是集成学习算法？可参考决策树系列（一）：集成学习(ensemble learning)->boosting与bagging的区别。下面来简单介绍一下。集成算法，是一种提高弱分类算法准确度的方法，将多个弱分类算法(也叫做基学习器)以一定的集成方式集合在一起，然后再将弱分类器的结果以一定的融合策略融合成一个结果，作为最终的结果输出。集成算法通过将多个学习器进行结合，常可获得比单一学习器显著优越的泛化性能。

基学习器的集成方式，大致分为以下2种：
（1）各个基学习器之间相互独立，不存在依赖关系，典型算法有bagging、随机森林；
（2）各个基学习器之间存在强依赖关系，每一个基学习器都是在前一个基学习器的基础上才能生成，典型算法有boosting。

基学习器结果的融合策略也有很多种：
（1）平均法
（2）加权平均法
（3）投票法
（4）求和法

3、boosting算法

Boosting，是集成学习算法的一种，核心思想就是：1）基学习器之间存在强依赖关系，每一个基分类器是在前一个基分类器的基础之上生成；2）将所有基学习器结果进行线性加权求和，作为最终结果输出。所以boosting算法，是一个加法模型。

什么是加法模型？

3.1 加法模型

加法模型是一种算法，当集成算法中的“”结果集成策略“”是线性组合策略的时候，该算法就是一个加法模型。其核心思想是：将若干个小算法的结果进行线性组合，作为最终结果进行输出。用一个数学公式表示就是：

什么是算法（模型）的学习/优化？

3.2 算法的学习/优化

以下几种说法代表的是同一种意思：
优化一个算法模型
= 学习一个算法模型
= 不断调整该算法模型的参数，使得该算法对样本的预测值与样本真实值之间的差异越来越小，直到达到足够小
=用一个优化方法，使得该算法朝着损失函数最小化的方向前进，直到满足条件

用一个算法去预测样本的目标值，我们怎么知道这个算法好不好用？看该算法对样本的预测值与样本真实值之间的差异，差异越小，说明该算法越好用。

一个算法，在最初的参数下，不能保证是好用的，此时对样本进行预测，预测值与样本真实值之间的差异，不能保证是最小的。所以我们就需要让该算法进行学习，学习的目标就是让样本预测值与真实值之间的差异最小，学习的过程就是不断调整模型参数，以缩小这个差异，直到缩小到足够小。我们平时说的算法的学习过程，就指的是这个过程。

样本预测值与其真实值之间的差异，总得有一个数学公式来表示，这个数学公式就叫做损失函数，损失函数的值就是样本预测值与真实值之间的差异（损失函数有很多种定义方式，各有优缺点，这里先不展开）。

综上，算法的学习过程，就是缩小样本预测值与真实值之间差异的过程，就是让损失函数极小化的过程。

以加法模型为例：在给定训练数据集

最低0.47元/天解锁文章

lanyuelvyun

关注

5
点赞
踩
42

收藏

觉得还不错? 一键收藏
2
评论
决策树系列（四）：集成学习+boosting算法+提升树+GBDT(梯度提升决策树)_详细原理解析

1 GBDT简介GBDT，英文全称是Gradient Boosting Decision Tree，梯度提升决策树，顾名思义，与梯度、boosting算法、决策树有关。是一种迭代的决策树算法，由多棵决策树组成，每一颗决策树也叫做基学习器，GBDT最后的结果就是将所有基学习器的结果相加。2 boosting算法GBDT既然跟boosting算法有关，就先来讲讲boosting算法。如果不想看，...
复制链接

扫一扫