我们首先介绍下提升树,再依此介绍梯度提升树、GBDT、GBRT,最后介绍Xgboost.
- 提升树(boosting tree)
提升树(boosting tree)是以决策树为基本学习器的提升方法,它被认为是统计学习中性能最好的方法之一。对于分类问题,提升树的决策树是二叉决策树,对于回归问题,提升树中的决策是二叉回归树。
提升树模型可以表示为决策树为基学习器的加法模型:
其中,
表示第
个决策树,
为第
个决策树的参数,
为决策树的数量。
提升树采用前向分步算法,
不同问题的提升树学习算法主要区别在于使用的损失函数不同(设预测值为
,真实值为
):
提升树的学习思想有点类似一打高尔夫球,先粗略的打一杆,然后在之前的基础上逐步靠近球洞,也就是说每一棵树学习的是之前所有树结论和的残差,这个残差就是一个加预测值后能得真实值的累加量。