梯度提升随机树GBDT
1.基本概念
GBDT是一种基于集成思想的决策树模型,本质是基于残差学习。
特点在于:可处理各种类型的数据;有着较高的准确率;对异常值的鲁棒性强;不能并行训练数据
2.GBDT训练过程
GBDT采用加法模型,通过不断减小训练过程产生的残差,以此对数据进行回归或分类。GBDT进行多轮迭代,每轮迭代产生一个弱分类器CART回归树,该分类器是在上一轮分类器的残差结果基础上训练得到的。对弱分类器的要求是低方差、高偏差(低方差保证模型不会过拟合+高偏差在训练过程中会减小,以此提高精度)。为了使损失函数尽可能快地减小,用损失函数的负梯度作为残差的近似值,然后去拟合CART回归树。
3.GBDT损失函数
(分类):指数损失函数 + 对数似然损失函数
(回归):均方差 + 绝对损失 + Huber损失 + 分位数损失
4.GBDT正则化
方式: 设置步长 + 子采样 + 剪枝操作
5.GBDT选择特征
实质是CART树生成过程,包括选择特征及切分点