GBDT原理与Sklearn源码分析-分类篇

最新推荐文章于 2025-04-19 10:23:23 发布

kingsam_

最新推荐文章于 2025-04-19 10:23:23 发布

阅读量2.9w

点赞数 32

分类专栏：机器学习理论学习机器学习文章标签： GBDT 原理实践算法

本文链接：https://blog.csdn.net/qq_22238533/article/details/79192579

版权

本文介绍了分类任务下GBDT的原理，包括选用logloss作为损失函数的算法流程，并通过实例展示了GBDT的实践过程。同时，简要分析了Sklearn中GradientBoostingClassifier的源码实现。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

摘要：

继上一篇文章，介绍完回归任务下的GBDT后，这篇文章将介绍在分类任务下的GBDT，大家将可以看到，对于回归和分类，其实GBDT过程简直就是一模一样的。如果说最大的不同的话，那就是在于由于loss function不同而引起的初始化不同、叶子节点取值不同。

正文：

GB的一些基本原理都已经在上文中介绍了，下面直接进入正题。
下面是分类任务的GBDT算法过程，其中选用的loss function是logloss。
$\large L\left(y_i,F_m(x_i)\right)=-\{y_ilogp_i+(1-y_i)log(1-p_i)\}$ 。
其中 $\large p_i=\frac{1}{1+e^\left(-F_m(x_i)\right)}$

这里简单推导一下logloss通常化简后的式子：
$\large L\left(y_i,F_m(x_i)\right)=-\left\{y_ilogp_i+(1-y_i)log(1-p_i)\right\}$
（先不带入负号）
带入 $\large p_i$ => $\large y_ilog\left(\frac{1}{1+e^\left(-F_m(x_i)\right)}\right)+(1-y_i)log\left(\frac{e^\left(-F_m(x_i)\right)}{1+e^\left(-F_m(x_i)\right)}\right)$
=> $\large -y_ilog(1+e^\left(-F_m(x_i)\right))+(1-y_i)\{log(e^\left(-F_m(x_i)\right))-log(1+e^\left(-F_m(x_i)\right))\}$
=> $\large -y_ilog(1+e^\left(-F_m(x_i)\right))+log(e^\left(-F_m(x_i)\right))-log(1+e^\left(-F_m(x_i)\right))-y_ilog(e^\left(-F_m(x_i)\right))+y_ilog(1+e^\left(-F_m(x_i)\right))$
=> $\large y_iF_m(x_i)-log\left(1+e^{F_m(x_i)}\right)$
最后加上负号可以得：
L(yi,Fm(xi))=−{ yilogpi+(1−yi)log(1−pi)}

最低0.47元/天解锁文章