15、集成学习——GBDT算法

healed萌

已于 2023-11-27 11:08:02 修改

阅读量314

点赞数 10

分类专栏：机器学习文章标签：集成学习算法机器学习

于 2023-11-23 19:46:36 首次发布

本文链接：https://blog.csdn.net/m0_56642803/article/details/134584910

版权

1 GBDT概述

梯度提升树（GBDT，Gradient Boosting Decison Tree），同为Boosting家族的一员，它和Adaboost有很大的不同。Adaboost 是利用前一轮弱学习器的误差率来更新训练集的权重，这样一轮轮的迭代下去，简单的说是Boosting框架+任意基学习器算法+指数损失函数。

GBDT通过多轮迭代，每轮迭代产生一个弱分类器，每个分类器在上一轮分类器的残差基础上进行训练。对弱分类器的要求一般是足够简单，并且是低方差和高偏差的。训练的过程是通过降低偏差来不断提高最终分类器的精度

GBDT由三部分构成：回归树(Regression Decistion Tree，DT)、GB(Gradient Boosting)和Shrinkage(衰减)

回归树(Regression Decistion Tree, DT)：无论是处理回归问题还是二分类以及多分类，GBDT使用的决策树通通都是都是CART回归树。因为GBDT每次迭代要拟合的是梯度值，是连续值所以要用回归树。

梯度提升树（Grandient Boosting）：是提升树（Boosting Tree）的一种改进算法。假如有个人30岁，我们首先用20岁去拟合，发现损失有10岁；我们去拟合损失，拟合的数值为6岁，发现差距还有4岁，第三轮我们用3岁拟合剩下的差距，差距就只有1岁了。如果我们的迭代轮数还没有完，可以继续迭代下面，每一轮迭代，拟合的岁数误差都会减小。最后将每次拟合的岁数加起来便是模型输出的结果。

在这里插入图片描述

衰减(Shrinkage)：每次走一小步逐渐逼近结果，要比每次迈一大步很快逼近结果的方式更容易避免过拟合。即模型不完全信任每一个残差树，认为每颗树只“学习”到一部分预测信息，所以在累加的时候只累加一小部分，通过多棵树的迭代就可以弥补不足。

迭代决策树和随机森林的区别：

随机森林使用抽取不同的样本构建不同的子树，也就是说第 $m$ 棵树的构建和前 $m - 1$ 棵树的结果是没有关系
迭代决策树在构建子树的时候，使用之前构建子树结果后形成的残差作为输入数据构建下一个子树；然后最终预测的时候按照子树构建的顺序进行预测，并将预测结果相加

2 回归树生成算法（DT）

输入：训练数据集 $D$ ；
输出：回归树 $f(x)=\sum_{m=1}^M {c}_mI(x \in R_m)$ 。

在训练数据集所在的输入空间中，递归地将每个区域划分为两个子区域并决定每个子区域上的输出值，构建二叉决策树：

(1) 选择最优切分变量 $x^{(j)}$ 与切分点 $s$ ，求解
$\min \limits_{j,s} [\min \limits_{c_1} \sum_{x_i \in R_1(j,s)}(y_i-c_1)^2+[\min \limits_{c_2} \sum_{x_i \in R_2(j,s)}(y_i-c_2)^2]$
遍历变量 $x^{(j)}$ ，对固定的切分变量 $x^{(j)}$ 扫描切分点 $s$ ，选择使上式达到最小值的对 $(j, s)$ 。

(2) 用选定的对 $(j, s)$ 划分区域并决定相应的输出值：
$R_1(j,s)=\{ x|x^{(j)}\le s\}, R_2(j,s)=\{ x|x^{(j)}> s\}\\ \hat{c}_m=\frac{1}{N_m}\sum_{x_i \in R_m(j,s)}y_i,\ \ \ \ \ \ \ x_i \in R_m,m=1,2$
(3) 继续对两个子区域调用步骤 (1)， (2) ，直至满足停止条件。