统计学习方法---AdaBoost

最新推荐文章于 2022-04-26 17:05:07 发布

leemusk

最新推荐文章于 2022-04-26 17:05:07 发布

阅读量380

点赞数

分类专栏： # 统计学习方法

本文链接：https://blog.csdn.net/leemusk/article/details/105267701

版权

本文介绍了集成学习中的提升方法AdaBoost，包括其特点、工作原理和应用场景。AdaBoost通过调整样本权重，构建一系列弱分类器并线性组合成强分类器，以降低分类误差率。其优点是泛化能力强，易于实现，但对离群点敏感。

摘要由CSDN通过智能技术生成

前言

什么是集成学习？
集成学习是一种机器学习方法，在集成学习中，我们训练多个弱学习器解决同样的问题，并将它们结合起来形成强学习器，获得更好的结果。这里有一个最重要的假设为：当弱学习器被正确组合时，我们可以得到更精确或更鲁棒（即容错能力更强）的模型。集成学习也可以成为元算法

什么是弱学习和强学习？
概率近似正确（PAC）将学习算法分为弱学习和强学习。PAC的主要思想是用一个训练误差和一个精度 $\epsilon$ 来控制泛化误差。泛化误差大，正确率仅比随机猜测高的称为弱学习，泛化误差小的称为强学习。也就是说，在二分类情况下弱分类器的错误率会高于50%，而强分类器的错误率会低很多。

如何组合弱学习器？
组合弱学习器从弱学习器的选择方面分为两类：

同质，用单一的弱学习器
异质，使用不同种类的弱学习器。

从弱学习器的组合角度分为两类：

序列方法：下一个模型依赖上一个模型的结果
并行方法：可并行训练，不同模型之间是相互独立的

这就引出了目前主要的三种组合弱学习的方法：

bagging，同质弱学习器，相互独立地并行学习弱学习器，并按照某种确定性的平均过程将它们组合起来。基于数据随机重抽样的分类分类器构建方法

自举汇聚法（boostrap aggregating），也成为了bagging方法，boosting方法的基本分类器是已一致的，不同的分类器是并行分类的。bagging是从原始数据集随机选择S个新数据集的一种技术，新数据集的大小与原始数据集一致。每一个数据集都是通过在原始数据集上随机选择一个样本，然后再随机选择一个样本来替代这个样本，所以新数据集中有重复数据，而原始数据集的某些值在新集合中则不再出现。
在S个数据集建好之后，将某个学习算法分别作用于每一个数据集就得到了S个分类器，选择机制为投票机制，即选择最后的分类结果为分类器结果中最多的类。
随机森林（random forest）为更先进的bagging方法。
boosting，同质弱学习器，以高度自适应的方法顺序的学习弱学习器，下一个模型依赖上一个模型的结果，并按照某种确定性的策略将它们组合起来。

boosting方法的基本分类器是一致的，但不同的分类器是串行训练的，每个新分类器都根据已训练出的分类器的性能来进行训练。boosting是采用增加错误分类的数据的权重，来集中关注被已有分类器错误分类的那些数据来获得新的分类器。
由于boosting分类的结果是基于所有分类器的加权求和结果的，因此boosging和bagging不太一样。bagging中的分类权重是相等的，这boosting的权重并不相等。每个权重代表的是其对应分类器在上一轮迭代中的成功度。
stacking，异质弱学习器，并行学习，并通过训练一个元模型将它们组合起来，根据不同弱分类器的预测结果输出一个最终的预测结果

偏差和方差？
首先我们可以简单的将偏差理解为衡量训练误差的的量，高偏差意味着训练误差大，即欠拟合；将方差理解为衡量泛化误差的量，高方差意味着泛化误差大，即过拟合。
boosting、stacking方法获得一个具有较低偏差的强学习器。所以，我们通常选择低方差高偏差的弱分类器。
bagging方法目的是获取较低方差的强学习器，所以，通常选择低偏差高方法的弱分类器。

以下主要对boosting方法（提升方法）进行讲解。提升方法主要分为两种，一种是用于分类问题的自适应提升（AdaBoost），另一种是使用决策树为弱分类器的提升树。

提升方法AdaBoost

AdaBoost的特点

优点：

泛化错误率低；
易编码；
可以应用在大部分分类器上；
无参数调整;

缺点：

对离群点敏感

AdaBoost的概要

在分类学习中，提升方法通过反复修改训练数据的权值分布，构建一系列基本分类器（弱分类器），并将这些基本分类器线性组合，构成一个强分类器。代表性的提升方法是AdaBoost算法（自适应提升），用于二值分类问题。
AdaBoost模型的弱分类器的线性组合：
$\sum_{i=1}^M\alpha_mG_m(x)$