Boosting GDBT

最新推荐文章于 2024-04-10 09:30:00 发布

Claroja

最新推荐文章于 2024-04-10 09:30:00 发布

阅读量292

点赞数

分类专栏： Python 文章标签： python

本文链接：https://blog.csdn.net/claroja/article/details/108865571

版权

Python 专栏收录该内容

398 篇文章 5 订阅

订阅专栏

在这里插入图片描述

GBDT算法流程为：
在这里插入图片描述

2.1 ：求之前分类器损失函数的负梯度作为本次弱分类器需要拟合的输出
2.2：对回归树的学习，一般选择CART TREE（分类回归树），对应的叶节点区域为w，CART TREE生成就用平方误差最小化
2.3：在叶结点区域上损失函数最小，求弱分类器权重
2.4：合成新的分类器

和adaboost区别是使用梯度来决定下一棵树的系数

参考：
https://www.jianshu.com/p/b0e147de75e6

GBDT（Gradient Boosting Decision Tree）梯度提升树

AdaBoost算法是模型为加法模型，损失函数为指数函数，学习算法为前向分步算法时的分类问题。而GBDT算法是模型为加法模型，学习算法为前向分步算法，基函数为CART树，损失函数为平方损失函数的回归问题
在针对基学习器的不足上，AdaBoost算法是通过提升错分数据点的权重来定位模型的不足，而梯度提升算法是通过算梯度来定位模型的不足。

GBDT的损失函数是平方损失时
在这里插入图片描述
则负梯度为：

残差为：

GBDT的思想就是在每次迭代中拟合残差来学习一个弱学习器。而残差的方向即为我们全局最优的方向。

GBDT回归树基本模板

输入：训练数据集
在这里插入图片描述
输出：回归树

损失函数：

1）初始化：
一般平方损失函数为节点的均值
在这里插入图片描述
2）对 $m = 1, 2, . . ., M$ M代表迭代次数，即生成弱学习器的个数

a.对样本 $i = 1, 2, . . ., N$ 计算损失函数的负梯度在当前模型的值将它作为残差的估计
在这里插入图片描述
b.对 ${(x_1,r_{m1}),...,(x_N,r_{mN})\}$ 拟合一个回归树，得到第m棵树的叶节点区域 $R_{mj},j=1,2,3...,J$ J表示每棵树的叶节点个数
c.对 $j = 1, 2, . . ., J$ ，利用线性搜索，估计叶节点区域的值，使损失函数最小化，计算：
在这里插入图片描述
d.更新