#####跟我一起学梯度提升
梯度提升是建立预测模型的一种强大技术。
####1.提升的起源
提升的思路来源于一个弱学习器是否能够被改良为更强的学习器。
弱假设/弱学习器——其猜测性能只比随机猜测稍好。
提升的思想是通过对观察样本进行过滤,保留可以让弱学习器处理的样本,以便集中于开发下一阶段的弱学习器来处理其余困难样本。
####2.AdaBoost ——第一个提升算法
AdaBoost中的弱学习器采用的是单分裂决策树。
提升过程——主要做法是进行样本加权,对难以分类的实例分配更大权重,对那些能够很好被处理的实例就分配更小的权重。
新的弱学习器以一种序列化的方式被添加进来,集中针对上一步筛选出来的困难样本进行训练。
预测过程——模型的最终预测是由多个弱学习器的多数投票做出的,投票权重即为各自的准确率。
####3.AdaBoost的推广
布赖曼首先在统计框架中,将AdaBoost和相关算法进行重铸,这一系列算法就被称为电弧算法。然后被弗里曼进一步发展为梯度提升机,再后来就简称为梯度提升、梯度树提升。
统计框架将Boosting过程重铸为数值优化问题,通过使用梯度下降的过程来添加弱学习器,以期最大程度地减小模型的损失。
这类算法被描述为逐阶段加法模型,这是因为一次只添加一个新的弱学习器,并且模型中的现有弱学习器在下一阶段的学习过程中被冻结。
被推广之后就可以使用任意的可微损失函数,将原来主要针对的二分类问题拓展到回归以及多类别分类领域。
####4.梯度提升是如何工作的???
梯度提升过程涉及三个要点——损失