GBDT梯度提升之二分类算法个人理解

胖胖大海

已于 2022-03-03 19:48:19 修改

阅读量2.7k

点赞数 5

分类专栏：机器学习文章标签： GBDT 梯度提升分类树

于 2021-01-27 17:39:58 首次发布

本文链接：https://blog.csdn.net/cxx654/article/details/113070811

版权

机器学习专栏收录该内容

34 篇文章 16 订阅

订阅专栏

提升树Boosting Tree算法实例详解_程大海的博客-CSDN博客

从提升树Boosting Tree过度到梯度提升Gradient Boosting_程大海的博客-CSDN博客

GBDT梯度提升之回归算法个人理解_程大海的博客-CSDN博客_梯度回归算法

GBDT梯度提升之二分类算法个人理解_程大海的博客-CSDN博客_gbdt二分类

GBDT梯度提升之多分类算法个人理解_程大海的博客-CSDN博客_gbdt可以多分类吗

XGBoost算法个人理解_程大海的博客-CSDN博客_xgboost 叶子节点权重

交叉熵损失与极大似然估计_程大海的博客-CSDN博客_极大似然估计和交叉熵

使用泰勒展开解释梯度下降方法参数更新过程_程大海的博客-CSDN博客

AdaBoost算法实例详解_程大海的博客-CSDN博客_adaboost算法实例

在学习GBDT回归算法时，对于优化目标，残差计算都比较符合直觉，好理解。对于使用GBDT解决二分类问题，直观上不是很好理解，主要有以下两点疑问：

对于分类问题怎么计算残差？
GBDT二分类的优化目标到底是直接优化预测概率，还是优化学习到的线性模型？

之前在介绍梯度提升方法的时候讲过，梯度提升方法的核心是使用损失函数对函数模型的负梯度在当前模型的值来近似残差，在此残差基础上来训练新一轮的模型。对于回归问题很好理解残差，标签值为100，预测值为90，那么残差就是10。

但是对于分类问题，分类结果不是分类正确就是错误，怎么来计算残差呢？回归问题与分类问题的区别在于回归问题预测的是数值，是数值可以很自然的计算残差或者损失函数的负梯度值。但是对于分类问题，分类结果要么正确，要么错误。

对于分类问题，首先要转换思路将分类问题也作为回归问题来考虑，这样计算的残差才有意义。我们经常使用Logistic Regression来处理二分类问题，Logistic Regression的本质是先学习一个的线性回归模型，然后在线性回归模型的基础上使用Sigmoid函数将线性回归模型得到的实数值转换为[0, 1]之间的概率值。所以说，对于使用GBDT方法解决二分类问题，也可以将分类问题先看做是一个学习的线性回归模型，然后再将回归模型的结果转换为概率。

既然有了这个线性回归模型作为中间结果，那么就可以以这个中间结果作为学习目标，使用梯度提升方法来进行拟合学习。

下面先来看一下GBDT处理二分类问题的一些特点：

1、损失函数

咱们先来看GBDT处理二分类问题中使用的损失函数，对于二分类问题通常使用逻辑斯蒂损失函数（多分类使用softmax损失函数）。

其中，

这里的跟中的是一样的含义，可以直接理解为就是一个学习到的线性回归模型。所以GBDT二分类算法的优化目标是学习得到一个最优的线性模型，通过线性模型来计算概率，从而计算损失，而不是直接学习得到最优的概率值。这一点与Logistic Regression的优化学习方式是一样的。

2、学习目标

有了上面的损失函数，那我们也就很容易知道了，学习目标就是要学习到这么一个线性回归模型，来使得上面定义的损失函数最小。这个其实就是二分类的对数几率，参考周志华《机器学习》3.3节

3、残差计算

有了上面定义的损失函数，按照梯度提升方法的定义，使用损失函数对于函数的负梯度在当前学习到的函数模型处的损失值来近似代替提升树中的残差。损失函数对求偏导数

注意！注意！注意！相信肯定有不少人，包括我自己在内，在刚开始看到这个玩意时都容易迷糊，自以为是的认为，都说梯度提升是用这个偏导数来近似代表残差，那现在这个计算出的残差是，并且这个又代表训练样本的真是标签概率（0.0或者1.0）, 代表样本的预测概率，那么这个残差不绝逼代表的是样本预测概率的残差吗？这样理解是完全没问题的，但是要注意，这要理解很容易就把思维引到了GBDT是直接优化预测概率这条歧途上。这地方计算的残差就是样本真是概率与预测概率的残差，但是并不代表最后在使用前向分布方法整合模型的时候得到的就是样本的预测概率。咱们在定义损失函数的时候也看到了，计算损失函数时是把先输入到Sigmoid函数中，得到，然后再使用和样本真是标签来计算损失的，损失函数的优化目标是线性模型，不直接优化预测概率值。