一、 概述
GBDT(GradientBoosting Decision Tree)/ GBRT(Gradient Boosting Regression Trees),是一个比较广泛的概念,可以使用不同的损失函数解决分类回归问题,但值得注意的是这里用的决策树总是“回归树”。同时,也是一个准确的,有效的,现成的可以用于回归或者分类问题的模型。包括网页搜索和生态学都有应用。
二、 原理
i. 模型(假设函数)
其中:
是弱学习其的假设函数
即:
对每个弱分类器结果进行累加
ii. 算法
逐步迭代,其中是能够使得当前模型损失函数最小的
即:
GradientBoosting求解这个最小化问题的方法是:总是往损失函数的负梯度方向移动,即
注:计算损失函数的负梯度在当前模型的值,将它作为残差的估计,对于平方损失函数它就是残差,对于一般损失函数,它就是残差(预测值与真实值的差)的近似值,对于分类问题,实际处理可以加入logistic变化。
对于步长,使用线搜索(Line Search)的方法,即: