提升:将弱分类器进行提升,形成强分类器。
两种基本思想:
1、梯度提升(Gradient Boosting, GB)
在每一步生成弱分类器后,依据损失函数的梯度方向,迭代选择负梯度方向上的基函数,逼近局部极小值。
->GBDT & Xgboost
2、样本加权
考虑提高分类错误样本的权值,即每次更关心做错了的部分,从而提高分类器的能力。
->Adaboost
梯度提升算法基本模型
初始模型:
对m = 1,…,M
计算伪残差(pseudo residuals):
得到基函数:用数据 计算拟合残差的基函数
计算步长:
更新模型:
决策树是提升算法中的典型基函数->GBDT
GBDT
在上述基本模型的第m步中,根据数据和伪残差得到的基函数为:
其中,J为 的叶节点数;