王小草【机器学习】笔记--提升

最新推荐文章于 2019-10-15 21:47:18 发布

王小小小草

最新推荐文章于 2019-10-15 21:47:18 发布

阅读量2.2k

点赞数 2

分类专栏：王小草机器学习笔记

本文链接：https://blog.csdn.net/sinat_33761963/article/details/71272342

版权

本文详细介绍了机器学习中的提升（Boosting）技术，包括提升的基本概念、梯度提升算法的推导以及XGBoost和Adaboost的原理。文章深入浅出地解释了提升算法如何通过结合多个弱学习器构建强学习器，并以XGBoost为例，探讨了二阶导数在优化过程中的作用。同时，文中还提供了Adaboost算法的推导和案例分析，帮助读者理解提升方法的工作机制。

摘要由CSDN通过智能技术生成

王小草【机器学习】笔记–提升

标签（空格分隔）：王小草机器学习笔记

集成学习

集成学习（ensemble learning）是通过构建多个学习器来完成学习任务的。

按照集成中学习器是否是同种类型，可分为：
同质(homogeneous)的集成:集成中只包含同种类型的个体学习器，例如决策树集成全是决策树，神经网络集成全是神经网络。同质集成中的个体学习器称为“基学习器(base leaner)”,学习算法称为“基学习算法(base learning algorithm)”。

异质(heterogenous)的集成:集成中包含不同类型的个体学习器，如同时包含决策树与神经网络。异质集成中的个体学习器称为“组件学习器(component learner)”或“个体学习器”。

按照集成的方式不同，可以分为：
Boosting:将弱学习器提升为强学习器的算法。个体学习器存在强依赖关系，必须串行生成的序列化方法。the model is dependent on the previous model

Bagging: 是并行式即成学习方法著名代表，名字来自于Bootstrap AGGregatING的缩写。个体学习器不存在强依赖关系，可以同时生成的并行化方法，the models are independent for each other。

集成学习可以获得比单一学习器显著优越的泛化性能，尤其是在弱学习器上，因此很多理论研究都针对弱学习器，尽管如此，在实际中，出于为了使用尽量少的个体学习器或其它原因，在较强的学习器上使用集成的方法，也不失为优选。

本笔记主要是针对boosting相关的知识整理。

1 提升(boosting)的概念

提升是机器学习技术，可以用于回归和分类问题。它先从初始训练集训练出一个基学习器；然后根据这个基学习器的表现对训练样本对分布进行调整，使得之前基学习期错的训练样本在之后受到更多关注；接着，基于调整后的样本分布再训练下一个基学习期，如此重复，直到基学习器数目达到设定的阈值；最后，将所有基学习器进行加权求和。（周志华《机器学习》）

也就是说，每次迭代，都会改变训练

即它每一步产生一个弱预测模型（如决策树），并加权累加到总模型中；如果每一步的弱预测模型生成都是依据损失函数的梯度方向，则称之为梯度提升（Gradient Boosting).

梯度提升算法首先给定一个目标函数，它的定义域是所有可行的弱函数集合（基函数）；提升算法通过迭代的选择一个负梯度方向上的基函数来逐渐逼近局部极小值。这种在函数域的梯度提升观点对机器学习的很多领域有深刻影响。

提升的理论意义：如果一个问题存在弱分类器，则可以通过提升的办法得到强分类器。

额。。这串概念是什么鬼，看完如果还不知所云提升是啥玩意儿。先不要急，心乱如麻先看下去。