一.从Boosting思想开始
1.梯度提升回归树是一种从它的错误中进行学习的技术。它本质上就是集思广益,集成一堆较差的学习算法进行学习。
2.GBDT是基于Boosting思想的,Adaboosting是最著名的Boosting算法,其基本思想是使用多个弱分类器来构建一个强分类器。 3.Adaboosting构造方法是一个迭代的过程,大致思路是:
*针对同一个训练集训练多层的弱分类器,每层使用训练集训练一个弱分类模型,我们从训练出的模型中得到预测结果。
*之后根据训练集中样本分类是否正确、总体分类的准确率来确定每个样本上应重新分配的权值,将修改过权重后的新数据集训练一个下层的分类器
*这样不断进行训练直到有很少的错分样本,最后将每层的分类器有权重分配的融合在一起,这样下来就组成了最终的决策分类器。
可以简化上述过程为:
4.每次迭代需要三次计算,
*一次计算分类误差率(w是每次的权重):
*第二次计算分配给当前分类器的系数:
*第三个是计算新的数据集的权值(y与Gm的值相同表示分对了,变大),其中Zm为规划因子:
最终得到将所有层分类器的组合: