【集成学习】13 Stacking集成学习算法

Blending在集成的过程中只会用到validation set的数据,对数据实际上是一个很大的浪费。(stacking就是对这个问题的改进?)

Blending vs. Stacking
Blending 优点:

  • 比stacking简单(不用k-fold cross validation来获得stacker feature)
    Blending 缺点
  • 使用了很少的数据(划分hold-out作为测试集,并非cv)
  • blender可能会过拟合(其实大概率是第一点导致的)
  • stacking使用多次的CV会比较稳健

相比于Bagging与Boosting的集成方式,Blending和Stacking的方式更加简单和直观,且效果还很好。

它(Stacking)可以帮你打败当前学术界性能最好的算法
啊真的吗,我要试试,试试就试试

在这里插入图片描述

  1. 将所有data set分成 training set和testing set(training 10,000行,testing 2,500行)。training的10,000进行5-fold cross validation – 用 8,000 做training,2,000做validation。
  2. 每次验证 – 用 8,000 train一个模型,用这个模型对valination的2,000条数据进行验证(得到2,000条数据)
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值