对GBDT的理解

最新推荐文章于 2024-08-05 14:31:47 发布

置顶 1308900238

最新推荐文章于 2024-08-05 14:31:47 发布

阅读量247

点赞数

文章标签： GBDT 机器学习

本文链接：https://blog.csdn.net/qq_20945297/article/details/83178339

版权

我们在优化逻辑回归的时候使用梯度下降来优化权值，那是否可以优化函数呢？即对函数进行梯度优化，迭代逼近最优值。

在GBDT中，每个树都是当前点取得最优的梯度下降的方向，我们可以求出前面n-1颗树的值，然后L(y,Fx-1)损失函数来对当前点求导，求出ri(当前点在第i个样本上的梯度)，这时候我们有了当前点xj以及各个样本在当前点的梯度Rij(i为各个样本),呢我们就可以将Rij当做xj的标签，以此来建立一颗回归树模型。模型建好后，我们求出最优的一个树权重β，这个β也可以看做是学习率即在该梯度上步进多少。

上面就是一个GBDT的流程，我们不断循环上述步骤，直到达到停止条件。

例如，在GBDT里常用的回归树就是不断的寻找最佳的切分点，最终到达叶子节点我们就找到了一个数值，这个数值就是该数据接下来的截距，拿到这个截距在乘上这棵树的权值（学习率）就得到了一个数值，加上这个数，我们离正确的结果就更近了一步。

决策分类树是处理离散的数值的（确切的说是离散的标签），针对每个标签都有一个叶子节点与之对应，但是回归树是处理连续数值的，每个叶子节点不再是一个确切的数，而是一个取值范围，这个范围内，统一用一个数值代替，使用该数值不会离真实值太远，这就要求我们要找到合适的分割点将相近的数值分到一簇，同时找到这个簇内离各个点的总损失最小的点。或者说是均值。

如何找梯度？我们这里找的梯度不是参数的梯度了，而是损失函数的梯度，假设我们定义的损失函数是最小二乘loss = （y-pre）^2

我们求的梯度是loss对pre求导，即2*（y-pre）*(-1),此处的pre就是前面n-1个模型的加权之和。这样我们就求得了第i个样本在n-1处的梯度，同理可以求得m个样本在此处的梯度，我们可以得到一些组合（样本，梯度）（xi,rij），接下来我们就把样本当输入，把梯度当标签来构造回归树，回归树构造好以后，我们通过y-F(n-1)-βh(x)，我们通过求解该式最小来求出一个最佳的β来作为该棵树的权重。

1308900238

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
对GBDT的理解

我们在优化逻辑回归的时候使用梯度下降来优化权值，那是否可以优化函数呢？即对函数进行梯度优化，迭代逼近最优值。在GBDT中，每个树都是当前点取得最优的梯度下降的方向，我们可以求出前面n-1颗树的值，然后L(y,Fx-1)损失函数来对当前点求导，求出ri(当前点在第i个样本上的梯度)，这时候我们有了当前点xj以及各个样本在当前点的梯度Rij(i为各个样本),呢我们就可以将Rij当做xj的标签，以此...
复制链接

扫一扫