（保证能看懂系列）集成算法之Boosting - GBDT分类算法手推原理以及 python 实现

最新推荐文章于 2024-07-10 22:38:17 发布

Lee_Yu_Rui

最新推荐文章于 2024-07-10 22:38:17 发布

阅读量616

点赞数 2

分类专栏： python 文章标签：算法 python 机器学习

本文链接：https://blog.csdn.net/Lee_Yu_Rui/article/details/107329492

版权

本文详细介绍了GBDT分类算法的原理，包括odds与概率的关系、log(odds)的作用，以及GBDT算法的通用流程。通过负梯度值计算和CART树建立，逐步解析分类问题的解决过程，并提供了Python实现代码，同时对比了自己实现与sklearn库的精度差异。

摘要由CSDN通过智能技术生成

回归算法已经实现，可参考《集成算法之Boosting - GBDT回归算法手推原理以及 python 实现》 https://blog.csdn.net/Lee_Yu_Rui/article/details/107309184

本章继续完成分类算法的基本原理和python实现，在进行推导之前首先解释几个概念：

1. odds和概率的关系

红球的Odds是红色/绿色，红色的概率是红色/所有。所以odds和概率是完全不一样的概念，但是两者可以转化

下图可知发生事件A的 odds = P/(1-P)， P事件A发生的概率

2. 图一中表示红球表示赢得比赛，绿球表示输了比赛，如果一共就10场，那赢了6场和输了 4 场是一个意思，但是在odds上却有很大的差别 odds(红球) = 6/4 ， odds（绿球） = 4/6，如果有1000场比赛呢，这个差别会更大。所以我们没办法用odds来解释发生事情的可能性，为了便于理解所以引入log(odds)，从下图中左边转成右边，是从odds转成 log(odds),原来的odds（绿球） = 4/6 如果红球变成1000个这个值会无限接近于0，所有odds(绿球)在0-1之间，而odds(红球)是在1-正无穷，显然这是不对称的。转变成右图之后，两者就关于0对称，所以就具备了可比性另外 log(odds)是服从正态分布的有利与决策