训练集、验证集、测试集的划分方法

转载自https://blog.csdn.net/wenqiwenqi123/article/details/79232536 作者:超屌的温jay

过去人们运用机器学习传统方法的时候,一般将训练集和测试集划为7:3。
若有验证集,则划为6:2:2. 这样划分确实很科学,当数据量不大的时候(万级别及以下)。这是前几年机器学习领域普遍认可的最好的实践方法。
在这里插入图片描述

但到了大数据时代,数据量陡增为百万级别,此时我们不需要那么多的验证集和训练集。
假设有100W条数据,只需要拿出1W条来当验证集,1W条来当测试集,就能很好地work了。
因此,在深度学习中若是数据很大,我们可以将训练集、验证集、测试集比例调整为98:1:1
在这里插入图片描述

  • 1
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
在机器学习中,划分数据集训练集验证集测试集是为了评估和优化模型的性能。这个划分过程通常遵循以下几个步骤: 1.首先,从原始数据集中随机选择一部分数据作为训练集训练集是用来训练模型的主要数据集,模型通过学习训练集中的模式和规律来进行预测。 2.其次,从剩下的数据中选择一部分作为验证集验证集用于调节模型的超参数和进行模型选择,以提高模型的性能。通过在验证集上评估不同超参数或模型结构的性能,可以选择最佳的模型。 3.最后,剩下的数据作为测试集测试集是用来评估最终训练好的模型的性能。模型在测试集上的表现可以反映其泛化能力,即对新数据的预测能力。测试集的结果可以提供对模型在实际应用中的性能预估。 划分训练集验证集测试集的比例没有固定的规定,可以根据具体的任务和数据集大小来确定。常见的做法是将数据集划分为大约70-80%的训练集,10-15%的验证集和10-15%的测试集。这样的划分可以保证模型具有较好的性能评估和泛化能力。 引用: 在机器学习中,经常提到训练集测试集验证集似有似无。感觉挺好奇的,就仔细查找了文献。以下谈谈训练集验证集测试集。 整个测试集往往就是为了在验证集只是非训练集一个小子集的情况下,好奇一下那个靠训练集(训练)和验证集(调参)多次接力训练出来的模型是不是具有了泛化性能,因而加试一下图个确定。 测试集:对于训练完成的神经网络,测试集用于客观的评价神经网络的性能。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值