3.1.3 训练/开发/测试集的问题以及注意事项

机器学习中,训练集用于训练模型,开发集(又称开发验证集)用于评估不同思路并选择最佳,而测试集则在最终评估模型性能。数据集划分要遵循同一分布原则,确保数据均匀分布。开发集和测试集大小需合适,当对现有误差指标不满意时,可调整开发/测试集或设计新指标。
摘要由CSDN通过智能技术生成

训练/开发/测试集划分

开发集我们称之为development set,有时候也称之为保留交叉验证集。机器学习的流程是,你尝试很多的思想,然后用训练集训练不同的模型,使用开发集来评估不同的思路,选择一个,之后不断迭代去改善开发集的性能,直到最后你可以得到一个令你满意的成本,之后用测试集去评估。

数据集和测试集的划分一个非常非常重要的原则就是一定满足同一分布。

这里写图片描述

如图所示,如果我们要8个不同国家,最好不要四个国家划分为一组,而是把数据全部打散,均匀的划分。

不要花很多时间来瞄准一个目标,针对靶心不断优化,然后等到测试的时候说,我们用其他靶来测试。

开发集和测试集的大小

这里写图片描述

这里写图片描述

什么时候该改变开发/测试集和指标

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Einstellung

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值