数据集的拆分

零、概念

分层采样:保留类别比例的采样

 

一、留出法

   拆成两个互斥的集合,一个训练集S,一个测试集T

缺点:T小时评估结果不够稳定准确;S小时,训练时的数据S与S+D差别较大,训练出来的模型与用S+D训练出来的模型差别较大,降低了评估结果的保真性

 

二、交叉验证法

k折交叉验证的k个测试结果取平均作为最终结果  

留一法是对m个样本进行m折的特例,优点是不用考虑分层采样,缺点是开销大

 

三、自助法

        有放回随机采样,直到采样到的数据与原始数据集一样大,约有36.8%的数据未被采样到,这些数据作为测试数据/袋外数据,测试结果为包外估计(out of bag estimate)

lim(1-1/m)^m=1/e≈0.368

优点:训练样本规模可以达到给定的数据集大小

缺点:改变初始化数据集的分布

 

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值