机器学习 集成学习

集成学习:构建一组基学习器(base learner),将多个基学习器的结果综合起来得到集成后的模型。

集成学习要优于单个学习器必须满足两个必要条件:

(1)多个个体学习器/基学习器之间相互独立

(2)每个个体学习器/基学习器的性能要优于随机分类器,这种个体学习器通常被称为弱学习器:弱学习器指的是性能优于随机猜测(random guess)分类器/学习器的学习器。

bagging和boosting对于基学习器的要求很低,只要基学习器的性能优于随机猜测分类器即可。

集成学习的关键步骤:

(1)如何构造不同的基学习器

(2)如何将不同的基学习器联合起来

boosting:每个分类器都将基于上次分类器的性能所决定。不同的分类器是通过串行训练得到的,当第k个分类器的分类结果得到后,同时评估分类器在数据集上的准确率,在训练第k+1个分类器时将在第k个分类器上分类错误的样本权重增大。以此类推,boosting方法通过在上一次分类器中分类错误的数据样本以获得/训练新的分类器。在将多个分类器集成时,bagging方法中的多个分类器的权重不同,取决于当前分类器在上一轮采用的数据集上的成功率。

bagging:S个分类器并行(parallel ensemble model,不同的分类器是通过并行训练得到的),对训练数据集进行S次的采样,得到S个与原始数据及规模相同的新数据集,每次采样都是bootstrap的有放回采样(这意味着对于一次采样的数据集,可以包含有原始数据集中重复的样本,而原始数据集中的某些样本则可能在采样后的数据集不再出现)。然后用S个分类器独立地训练S个数据集,得到S个训练好的分类器之后,将S个分类器投票的结果作为集成模型的预测结果。bagging方法的典型应用就是随机森林(构建多个独立的决策树)。在将多个分类器集成时,bagging方法中的多个分类器的权重相同。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值