统计学习方法---AdaBoost

前言

什么是集成学习?
集成学习是一种机器学习方法,在集成学习中,我们训练多个弱学习器解决同样的问题,并将它们结合起来形成强学习器,获得更好的结果。这里有一个最重要的假设为:当弱学习器被正确组合时,我们可以得到更精确或更鲁棒(即容错能力更强)的模型。集成学习也可以成为元算法

什么是弱学习和强学习?
概率近似正确(PAC)将学习算法分为弱学习和强学习。PAC的主要思想是用一个训练误差和一个精度 ϵ \epsilon ϵ来控制泛化误差。泛化误差大,正确率仅比随机猜测高的称为弱学习,泛化误差小的称为强学习。也就是说,在二分类情况下弱分类器的错误率会高于50%,而强分类器的错误率会低很多。

如何组合弱学习器?
组合弱学习器从弱学习器的选择方面分为两类:

  • 同质,用单一的弱学习器
  • 异质,使用不同种类的弱学习器。

从弱学习器的组合角度分为两类:

  • 序列方法: 下一个模型依赖上一个模型的结果
  • 并行方法:可并行训练,不同模型之间是相互独立的

这就引出了目前主要的三种组合弱学习的方法:

  • bagging,同质弱学习器,相互独立地并行学习弱学习器,并按照某种确定性的平均过程将它们组合起来。 基于数据随机重抽样的分类分类器构建方法

    自举汇聚法(boostrap aggregating),也成为了bagging方法,boosting方法的基本分类器是已一致的,不同的分类器是并行分类的。bagging是从原始数据集随机选择S个新数据集的一种技术,新数据集的大小与原始数据集一致。每一个数据集都是通过在原始数据集上随机选择一个样本,然后再随机选择一个样本来替代这个样本,所以新数据集中有重复数据,而原始数据集的某些值在新集合中则不再出现。
    在S个数据集建好之后,将某个学习算法分别作用于每一个数据集就得到了S个分类器,选择机制为投票机制,即选择最后的分类结果为分类器结果中最多的类。
    随机森林(random forest)为更先进的bagging方法。

  • boosting,同质弱学习器,以高度自适应的方法顺序的学习弱学习器,下一个模型依赖上一个模型的结果,并按照某种确定性的策略将它们组合起来。

    boosting方法的基本分类器是一致的,但不同的分类器是串行训练的,每个新分类器都根据已训练出的分类器的性能来进行训练。boosting是采用增加错误分类的数据的权重,来集中关注被已有分类器错误分类的那些数据来获得新的分类器。
    由于boosting分类的结果是基于所有分类器的加权求和结果的,因此boosging和bagging不太一样。bagging中的分类权重是相等的,这boosting的权重并不相等。每个权重代表的是其对应分类器在上一轮迭代中的成功度。

  • stacking,异质弱学习器,并行学习,并通过训练一个元模型将它们组合起来,根据不同弱分类器的预测结果输出一个最终的预测结果

偏差和方差?
首先我们可以简单的将偏差理解为衡量训练误差的的量,高偏差意味着训练误差大,即欠拟合;将方差理解为衡量泛化误差的量,高方差意味着泛化误差大,即过拟合。
boosting、stacking方法获得一个具有较低偏差的强学习器。所以,我们通常选择低方差高偏差的弱分类器。
bagging方法目的是获取较低方差的强学习器,所以,通常选择低偏差高方法的弱分类器。

以下主要对boosting方法(提升方法)进行讲解。提升方法主要分为两种,一种是用于分类问题的自适应提升(AdaBoost),另一种是使用决策树为弱分类器的提升树。

提升方法AdaBoost

AdaBoost的特点

优点:

  1. 泛化错误率低;
  2. 易编码;
  3. 可以应用在大部分分类器上;
  4. 无参数调整;

缺点:

  1. 对离群点敏感

AdaBoost的概要

  1. 在分类学习中,提升方法通过反复修改训练数据的权值分布,构建一系列基本分类器(弱分类器),并将这些基本分类器线性组合,构成一个强分类器。代表性的提升方法是AdaBoost算法(自适应提升),用于二值分类问题。
    AdaBoost模型的弱分类器的线性组合:
    f ( x ) = ∑ i = 1 M α m G m ( x ) f(x) = \sum_{i=1}^M\alpha_mG_m(x) f(x)=i=1M

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值