GBDT也是集成学习中的一种算法,我们之前已经讲了Boosting集成学习的思想,在了解GBDT之前,我们先了解一下提升树。
提升树
提升树是以分类树或者回归树为基本分类器的提升方法。采用加法模型(即基函数的线性组合)与向前分布算法,以决策树为基函数的提升方法称为提升树(boosting tree),对于分类问题其决策树是二叉分类树,对于回归问题决策树是二叉回归树。提升树的模型可以表示为:
这个式子应该不难理解,上面已经说了提升树是采用的加法模型,其中M表示树的棵树, 表示决策树,为决策树中的参数。
提升树的算法采用的是向前分布算法,首先确定初始提升树,那么第m步的模型是:
式子中为当前模型,那么关键是如何确定下一棵决策树的参数??? 想将决策树加进来,我们肯定是建立在误差最小化的基础上:
我们将作为我们的损失函数,新的决策树加进来之后,如何确定参数?? 直接使用新的模型去拟合或者分类样本,我们将当做我们的标签, 当做我们学习器的输出值。
对于回归问题来说,一般采用平方误差损失函数: