1, 远观GBDT
GBDT算法也是有很多决策树(CART)集成而来,但与随机森林不同,GBDT生成的决策树之间有依赖关系,GBDT算法用到的是一种boosting策略,由弱学习器组合而成强学习器。
在GBDT中,每一轮弱学习器的得出都与已经得到的模型(已得到的弱学习器的组合)有关,怎么有关法?提到的弱学习器的组合是怎么做的?这是我们要学习的主要问题。先来大致讲述一下GBDT在当前轮的弱学习器中拟合损失函数的负梯度值在已经得到的模型的值,这与之前的机器学习算法不同,不再拟合真实值,而是拟合梯度值。
组合的方式就是简单直接的加法模型或者加入一个学习率之后在相加(防过拟合),有没有感觉进入了求损失函数最小用的梯度下降算法,我觉得就是这种算法。
具体怎么做和损失函数的设定问题我们下面详细讲解
2, 理论部分
样本
(自变量)对应的真实值,也就是我们要拟合的目标。
第
个弱学习期
前
个弱学习器的组合
损失函数的形式有多种,回归与分类所用的损失函数也不同,这篇文章我们先讲回归任务。
回归任务
选择的损失函数为
损失函数在已训练模型(前
个弱学习器的组合
)的负梯度值为
算法过程初始化第1个弱分类器