机器学习之路(八)随机森林

1. 集成学习概念,
2. 个体学习器,
3. boosting , bagging
4. 结合策略(平均法,投票法,学习法)
5. 随机森林思想
6. 随机森林的推广
7. 优缺点
8. sklearn参数

1.集成学习概念

      最开始接触集成学习是在参加达观的比赛中,那时候看大佬们最后都选择进行模型融合,综合不同模型的结果进行分数的提升,而菜鸡如我就只能跑个单模型调调参,只能在一百名徘徊。集成学习对模型结果的提升是非常明显的,可以说是比赛利器,实际上就是组合多种分类器,达到我们常说的“三个臭皮匠顶上一个诸葛亮”的效果。个人认为模型融合和集成学习是一致的,但是看有些大佬对集成学习进行了分类,将弱分类器融合的方法叫做机器学习元算法,可以认为是臭皮匠和诸葛亮的关系。另一种是强分类器强强联合进行提升,就可能是三个诸葛亮无敌的故事了。

     定义:

     使用一系列学习器进行学习,并使用某种规则(模型融合方法)把各个学习结果进行整合,从而获得比单个学习器更好的学习效果的一种机器学习方法。

    理论基础:

    集成学习的理论基础来自于Kearns和Valiant提出的基于PAC(probably approximately correct)的可学习性理论 ,PAC 定义了学习算法的强弱:

    弱学习算法:识别错误率小于1/2(即准确率仅比随机猜测略高的算法) 
    强学习算法:识别准确率很高并能在多项式时间内完成的算法
    原则:

    当然这是个人认为的原则,就像周志华老师在西瓜书里面说的“好而不同”,好指的是个体学习器的性能要好,不同指的是个体模型的类别不同。就是说差异性越大的模型,融合的结果可能越好。

 2.个体分类器

    个体分类器就是说用来融合的单个分类器,从种类上来说可以分为两种,就是所有的分类器都是同种类的以及所有的分类器不是同一种类的,而前者是目前应用最广泛的,主要是CART和神经网络。同种类的个体分类器根据强弱依赖关系又可以分为两类,强依赖性,个体分类器串行生成,代表算法是Boosting系列。弱依赖性,个体分类器可以并行生成,代表算法是Bagging系列算法。

 3.集成学习方法:bagging,boosting,stacking

    集成学习的框架有三种,分别是bagging、boosting和stacking

    3.1 bagging

    bagging有好多叫法,什么套袋法、装袋法,我最喜欢的还是自举汇聚法,因为听起来就很高大上。核心在于汇聚,也就是说分类器是并行的,很像我们了解的民主选举、投票系统啥啥的。其算法过程如下:

A)从原始样本集中抽取训练集。每轮从原始样本集中使用Bootstraping的方法抽取n个训练样本(在训练集中,有些样本可能被多次抽取到,而有些样本可能一次都没有被抽中)。共进行k轮抽取,得到k个训练集。(同一个样本可能被多次抽到)

B)每次使用一个训练集得到一个模型,k个训练集共得到k个模型。

C)对分类问题:将上步得到的k个模型采用投票的方式得到分类结果;对回归问题:计算上述模型的均值作为最后的结果。需要注意的是模型的权值是等重的。

    如果集成运算的基本单元是决策树,那么就构成了今天要说的随机森林,在一些推荐系统大赛、天池还有kaggle比赛中,具有极高的出场率,因为在准确率上有相当大的优势。注意关键词“随机”和“森林”,随机指的是分

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

皮的开心

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值