深入理解GBDT多分类算法

最新推荐文章于 2024-05-18 22:54:02 发布

原创

最新推荐文章于 2024-05-18 22:54:02 发布 · 2.4k 阅读

12 ·

CC 4.0 BY-SA版权

文章标签：

#GBDT #梯度提升决策树 #CART #分类算法 #多分类算法

本文深入探讨了GBDT（梯度提升决策树）在多分类问题中的应用，从Softmax回归的对数损失函数出发，解析了GBDT多分类原理，通过实例详细解释了如何使用GBDT进行多分类，包括用Python3和sklearn实现。最后，文章总结了GBDT在多分类任务中的关键点，并提供了相关参考资料。

我的个人微信公众号： Microstrong

微信公众号ID： MicrostrongAI

微信公众号介绍： Microstrong(小强)同学主要研究机器学习、深度学习、计算机视觉、智能对话系统相关内容，分享在学习过程中的读书笔记！期待您的关注，欢迎一起学习交流进步！

我的知乎主页： https://www.zhihu.com/people/MicrostrongAI/activities

Github： https://github.com/Microstrong0305

个人博客： https://blog.csdn.net/program_developer

本文首发在我的微信公众号里，地址：https://mp.weixin.qq.com/s/-UmOhpktgRaOF7tT2-5nsQ，如有公式和图片不清楚，可以在我的微信公众号里阅读。

目录：

GBDT多分类算法
1.1 Softmax回归的对数损失函数
1.2 GBDT多分类原理
GBDT多分类算法实例
手撕GBDT多分类算法
3.1 用Python3实现GBDT多分类算法
3.2 用sklearn实现GBDT多分类算法
总结
Reference

本文的主要内容概览：
在这里插入图片描述

1. GBDT多分类算法

1.1 Softmax回归的对数损失函数

当使用逻辑回归处理多标签的分类问题时，如果一个样本只对应于一个标签，我们可以假设每个样本属于不同标签的概率服从于几何分布，使用多项逻辑回归（Softmax Regression）来进行分类：
$\begin{aligned} P(Y=y_{i}|x) &= h_{\theta}(x) \begin{bmatrix} P(Y=1|x;\theta )\\ P(Y=2|x;\theta) \\ . \\ . \\ . \\ P(Y=k|x;\theta) \end{bmatrix} \\ &=\frac{1}{\sum_{j=1}^{k}{e^{\theta_{j}^{T}x}}} \begin{bmatrix} e^{\theta^{T}_{1}x} \\ e^{\theta^{T}_{2}x} \\ . \\ . \\ . \\ e^{\theta^{T}_{k}x } \end{bmatrix} \end{aligned}$
其中， $\theta_{1},\theta_{2},...,\theta_{k}\in \Re^{n}$ 为模型的参数，而 $\frac{1}{\sum_{j=1}^{k}{e^{\theta^{T}_{j}x}}}$ 可以看作是对概率的归一化。一般来说，多项逻辑回归具有参数冗余的特点，即将 $\theta_{1},\theta_{2},...,\theta_{k}$ 同时加减一个向量后预测结果不变，因为 $P (Y = 1 ∣ x) + P (Y = 2 ∣ x) + . . . + P (Y = k ∣ x) = 1$ ，所以 $P (Y = 1 ∣ x) = 1 - P (Y = 2 ∣ x) - . . . - P (Y = k ∣ x)$ 。

假设从参数向量 $\theta^{T}_{j}$ 中减去向量 $\psi$ ，这时每一个 $\theta^{T}_{j}$ 都变成了 $\theta^{T}_{j} - \psi (j=1,2,...,k)$ 。此时假设函数变成了以下公式：
$\begin{aligned} P(Y=y_{j}|x;\theta) &= \frac{e^{\theta^{T}_{j}x}}{\sum_{i=1}^{k}{e^{\theta^{T}_{i}x}}} \\ &= \frac{e^{(\theta^{T}_{j}-\psi)x}}{\sum_{i=1}^{k}{e^{(\theta^{T}_{i}-\psi) x}}} \\ & = \frac{e^{\theta^{T}_{j}x} \times e^{-\psi x}}{\sum_{i=1}^{k}{e^{\theta^{T}_{i}x} \times e^{-\psi x} }} \\ & = \frac{e^{\theta^{T}_{j}x}}{\sum_{i=1}^{k}{e^{\theta^{T}_{i}x}}} \end{aligned}$