GBDT这个名字非常有深意:G-gradient
(表示该算法是基于梯度的),B-Boosting
(表示该算法是boosting模型),DT-decision tree
(表示算法内部使用的是决策树)。
梯度提升(Gradient boosting
)是一种用于回归、分类和排序任务的机器学习技术,属于Boosting算法族的一部分。Boosting是一族可将弱学习器提升为强学习器的算法,属于集成学习(ensemble learning)的范畴。Boosting
方法基于这样一种思想:对于一个复杂任务来说,将多个专家的判断进行适当的综合所得出的判断,要比其中任何一个专家单独的判断要好。通俗地说,就是“三个臭皮匠顶个诸葛亮”的道理。梯度提升同其他boosting
方法一样,通过集成(ensemble)多个弱学习器,通常是决策树,来构建最终的预测模型。
GBDT是基于决策树的,各类算法的大致时间线如下(从CART树开始):
- 1984:
CART
“Classification & Regression Trees” (Breiman) - 1986:
ID3
(Quinlan) - 1993:
C4.5
(Quinlan) - 1995:
Adaboost
(Freund and Schapire) - 1996:
Ba