GBDT(Gradient Boosting Decision Tree,梯度提升决策树),由名字可以看出涉及到三点:
1、boosting
简单讲,就是每次训练单个弱学习器时,都将上一次分错的数据权重提高一点再进行当前单个弱学习器的学习。这样越往后执行,训练出的单个弱学习器就会越在意那些容易分错(权重高)的点。当执行 M 次后,通过加权求和的方式组合成一个最终的学习器。
2、Gradient Boosting
Gradient boosting 是 boosting 的其中一种方法,它主要的思想是,每一次建立单个学习器时,是在之前建立的模型的损失函数的梯度下降方向。我们知道损失函数(loss function)越大,说明模型越容易出错,如果我们的模型能够让损失函数持续的下降,则说明我们的模型在不停的改进,而最好的方式就是让损失函数在其梯度的方向上下降。
3、Decision Tree
GBM可以选择各种不同的学习算法作为基学习器,用得最多的基学习器是决策树。这与决策树算法自身的优点有很大的关系。我们知道,单独使用决策树算法时,容易出现过拟合问题。假如通过方法来抑制决策树的复杂性,降低单个决策树的拟合能力,再通过梯度提升方法集成多个决策树,最终能很好地解决过拟合问题。
4、GBDT核心思想
GBDT在迭代的每一步构建一个能够沿着梯度最陡的方向降低损失的学习器来弥补已有模型的不足。GBDT在函数空间中利用梯度下降法进行优化。
参考文章:
https://www.jianshu.com/p/d55f7aaac4a7
https://blog.csdn.net/baibingbingbing/article/details/86695675