GBDT梯度提升之多分类算法个人理解

原创已于 2022-03-03 19:49:00 修改 · 2.5k 阅读

11 ·

CC 4.0 BY-SA版权

文章标签：

#GBDT #梯度提升 #多分类

于 2021-01-29 21:34:27 首次发布

深度学习同时被 2 个专栏收录

83 篇文章

订阅专栏

机器学习

34 篇文章

订阅专栏

本文深入探讨了GBDT（梯度提升决策树）在处理多分类问题上的应用，从二分类的逻辑斯蒂损失过渡到多分类的交叉熵损失函数。讲解了如何通过线性回归模型和softmax函数将多分类问题转化为回归问题，重点解析了损失函数、学习目标、残差计算和模型整合过程。并介绍了模型预测时如何利用softmax进行概率归一化。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

提升树Boosting Tree算法实例详解_程大海的博客-CSDN博客

从提升树Boosting Tree过度到梯度提升Gradient Boosting_程大海的博客-CSDN博客

GBDT梯度提升之回归算法个人理解_程大海的博客-CSDN博客_梯度回归算法

GBDT梯度提升之二分类算法个人理解_程大海的博客-CSDN博客_gbdt二分类

GBDT梯度提升之多分类算法个人理解_程大海的博客-CSDN博客_gbdt可以多分类吗

XGBoost算法个人理解_程大海的博客-CSDN博客_xgboost 叶子节点权重

交叉熵损失与极大似然估计_程大海的博客-CSDN博客_极大似然估计和交叉熵

使用泰勒展开解释梯度下降方法参数更新过程_程大海的博客-CSDN博客

AdaBoost算法实例详解_程大海的博客-CSDN博客_adaboost算法实例

在之前的文章用已经介绍过了GBDT处理二分类问题的原理，也分析回答了包括如何将分类问题转换为回归问题来计算残差，GBDT残差拟合的是概率值还是学习的线性回归参数模型。详细关于GBDT解决二分类问题的原理推导详见GBDT梯度提升之二分类算法个人理解，建议在学习GBDT多分类之前先把GBDT进行二分类的原理弄懂，弄懂二分类之后多分类自然就理解了。

GBDT解决多分类问题和解决二分类问题之间最主要的区别就在于损失函数，二分类使用的是逻辑斯蒂损失，多分类使用的是交叉熵损失函数。关于逻辑斯蒂损失和交叉熵损失的推导详见交叉熵损失与极大似然估计。

为了便于理解GBDT如何将多分类问题转换为回归问题进行求解，这里还是先介绍一下多分类使用的交叉熵损失函数。首先给出交叉熵损失函数的计算公式：

其中是样本的真实概率标签0或1，是softmax函数的计算结果，softmax函数将学习到的多个线性模型转换为对应分类的概率，每个对应于一个分类类别，所以是样本被预测为第个分类的概率：

如果看过GBDT梯度提升之二分类算法个人理解的读者一眼就能看到，咱们这里又出现了，这玩意在之前讲过就是一个线性回归模型，既然是回归模型，那么同样可以将其作为优化学习的目标，通过对每个分类类别学习得到一个最优的线性回归模型，然后再使用softmax函数将这些线性回归模型转换为对应类别的预测概率。

为了与《GBDT梯度提升之二分类算法个人理解》的结构保持一致，下面先来看一下GBDT处理多分类问题的一些特点：

1、损失函数

咱们先来看GBDT处理多分类问题中使用的损失函数，对于多分类问题通常使用交叉熵损失函数（二分类使用逻辑斯蒂损失函数）。

其中，

是训练样本标签的One-Hot编码，假如当前的训练集标签共分为A,B,C三类，且标签顺序也按照A, B, C的排列顺序。一个训练样本的标签label是B，那么这个样本的One-Hot编码结果就是(0, 1, 0)，也就是这个样本对应属于A类的概率为0，对应属于B类的概率为1，对应属于C类的概率为0，就得到了。

是样本预测为属于第类别的概率。这里的跟中的是一样的含义，可以直接理解为就是一个学习到的线性回归模型，只不过对于多分类问题，对于每个分类都需要学习到一个，并且这个学习到的是用来解决二分类问题的，也就是对于每个类别k需要训练一个二分类器，类别k作为正类，其余k-1个类别作为负类，这点就和将SVM等二分类模型用于多分类时采用的One-vs-Rest训练方式一样。所以GBDT多分类算法的优化目标是学习得到一个最优的线性模型，通过线性模型来计算概率，从而计算损失，而不是直接学习得到最优的概率值。这一点与Logistic Regression的优化学习方式是一样的。