训练集、验证集、测试集划分

一,搞清楚验证集

此段文字摘自《机器学习》周志华,第二章第二节评估方法 。

从文中可以get到几个点:

(1)验证集和测试集不同。

(2)验证集来自训练集的再划分。

(3)验证集的划分是为了模型选择和调参

(4)测试集是用来测试学习器对新样本的判别能力,用测试误差作为泛化误差的近似值。

 

二,训练集和测试集划分 

2.1  留出法

(1)将数据集D划分成两个互斥集合,常用的是将训练集和测试集比例选取为7:3

(2)训练集和测试集的划分要尽可能保持数据分布的一致性。分层采样:每个类别当中也按照7:3的比例来划分。以二分类为例正例样本在训练集和测试集中的比例为7:3,反例在训练集和测试集中的比例也为7:3。

(3)留出法得到的结果往往不够稳定可靠,不同的训练集测试集划分会导致模型评估标准也会不同。一般都会进行多次随机划分,例如100次试验评估就会得到100个结果,留出法取这100个结果的平均。

2.2  交叉验证

(1)将数据集D划分成k个大小相似的互斥子集,每次都用其中k-1个子集的并集作为训练集,余下那个子集作为测试集。这样就会有k次划分,k次训练。最终结果是返回k个测试结果的均值。通常把交叉验证法称为“k折交叉验证”,k最常用的取值是10,此时称为10折交叉验证。

(2)假设数据集D中有m个样本,若令k=m,则得到交叉验证的一个特例,每个集合只含有一个元素,称为留一法(LOO)。留一法的评估结果比较准确,但是计算开销难以忍受,100万个样本需要训练100万次。

2.3  自助法

 三,训练集测试集划分方式那种最好?

四,最后应该用全部数据集再训练一次 

五、训练集、验证集、测试集划分比例

数据量较小(传统机器学习)

没有验证集,训练集:测试集=7:3

有验证集,训练集:验证集:测试集=6:2:2

数据量较大(大数据划分) 

假设有100W条数据,只需要拿出1W条来当验证集,1W条来当测试集,就能很好地work了。

因此,在深度学习中若是数据很大,我们可以将训练集、验证集、测试集比例调整为98:1:1

  • 45
    点赞
  • 228
    收藏
    觉得还不错? 一键收藏
  • 6
    评论
在机器学习中,划分数据集为训练集验证集测试集是为了评估和优化模型的性能。这个划分过程通常遵循以下几个步骤: 1.首先,从原始数据集中随机选择一部分数据作为训练集训练集是用来训练模型的主要数据集,模型通过学习训练集中的模式和规律来进行预测。 2.其次,从剩下的数据中选择一部分作为验证集验证集用于调节模型的超参数和进行模型选择,以提高模型的性能。通过在验证集上评估不同超参数或模型结构的性能,可以选择最佳的模型。 3.最后,剩下的数据作为测试集测试集是用来评估最终训练好的模型的性能。模型在测试集上的表现可以反映其泛化能力,即对新数据的预测能力。测试集的结果可以提供对模型在实际应用中的性能预估。 划分训练集验证集测试集的比例没有固定的规定,可以根据具体的任务和数据集大小来确定。常见的做法是将数据集划分为大约70-80%的训练集,10-15%的验证集和10-15%的测试集。这样的划分可以保证模型具有较好的性能评估和泛化能力。 引用: 在机器学习中,经常提到训练集测试集验证集似有似无。感觉挺好奇的,就仔细查找了文献。以下谈谈训练集验证集测试集。 整个测试集往往就是为了在验证集只是非训练集一个小子集的情况下,好奇一下那个靠训练集(训练)和验证集(调参)多次接力训练出来的模型是不是具有了泛化性能,因而加试一下图个确定。 测试集:对于训练完成的神经网络,测试集用于客观的评价神经网络的性能。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 6
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值