机器学习 :训练集、验证集、测试集分配比例

根据《统计学习方法》中的观点:
“如果给定的样本数据充足,进行模型选择的一种简单方法是随机地将数据集切分成三部分,分别为训练集(training set)、验证集(validation set)和测试集(test set)。训练集用来训练模型,验证集用来模型选择,而测试集用于最终对学习方法的评估。”

训练集较小

如果数据集较小时,一般采用简单交叉验证的方法,即不设置验证集,而只设置训练集和测试集,根据西瓜书的观点,训练集和测试集的比例设置一般为 2:1 ~ 4:1 。根据目前我所看到的方法,大多数人将比例设置为7:3。

训练集较大

如果数据量较大时(有人说是数据集以万为单位),一般训练集、验证集、测试集的分配比例为 6:2:2。

训练集非常大

如果数据量更大时,例如百万级的数据集,一般划分比例在 98:1:1 以上(即根据情况再提高训练集的占比)。

  • 14
    点赞
  • 53
    收藏
    觉得还不错? 一键收藏
  • 3
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值