机器学习-day10-随机森林与集成学习(1)

在接下的几天里,可能会更的比较慢,快考试了

集成学习:

如果你聚合一组预测器(比如分类器或回归器)的预测,得到的预测结果也比最好的单个预测器要好。这样的一组预测器方法称为集成学习。集成学习通过建立几个模型来解决单一预测问题。它的工作原理是生成多个分类器/模型,各自独立地学习和作出预测。这些预测最后结合成组合预测,因此优于任何一个单分类的做出预测

要创建出一个更好的分类器,最简单的办法就是聚合每个分类器的预测,然后将得票最多的结果作为预测类别。

这种大多数投票分类器被称为硬投票分类。投票法分类器的准确率通常比集成中最好的分类器还要高

投票分类器略胜于所有单个分类器。当预测器尽可能互相独立时,集成方法的效果最优。获得多种分类器的方法之一就是使用不同的算法进行训练。这会增加它们犯不同类型错误的机会,从而提升集成的准确率。

投票分类器:通过多数表决权来确定

 

Bagging装袋: 从训练集中进行子抽样组成每个基模型所需要的子训练集,对所有基模型预测的结果进行综合产生最终的预测结

Bootstraping采样:

给定包含 m 个样本的数据集,我们先随机取出一个样本放入采样集中,再把该样本放回初始数据集,使得下次采样时该样本仍有可能被选中。

上述过程重复m 轮,我们得到 m 个样本的采样集,初始训练集中有的样本在采样集中多次出现,有的则从未出现,约 63.2 的样本出现在采样集中,而未出现的约 36.8的样本可用作验证集来对后续的泛化性能进行「包外估计」。

bagging:训练一个含500个决策树分类器[的集成,每次从训练集中随机采样100个训练实例进行训练,然后放回。

集成预测的泛化效果很可能会比单独的决策树要好一些。

剩余37%未被采样的训练实例称为包外(oob)实例。注意,对所有预测器来说,这是不一样的37%。由于预测器在训练过程中从未看到oob实例,因此可以在这些实例上进行评估,而无须单独的验证集。可以通过平均每个预测器的oob评估来评估整体。

 

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值