为什么除了训练集要划分测试集和验证集

本文探讨了在人工智能模型训练中,数据集的合理划分对于模型选择和性能评估的关键作用。通常,数据集被分为训练集、验证集和测试集,比例如3:1:1。训练集用于训练模型,验证集帮助选择最佳模型,而测试集则用于独立评估模型的泛化能力。确保验证集和测试集不重合,能有效避免过拟合,真实反映模型在未知数据上的表现。
摘要由CSDN通过智能技术生成

假设有1000条已经标注好的数据,取其中600条作为训练集,200条作为验证集,200条作为测试集。
3:1:1的比例可以自行调整,三个集合互相不存在交集
训练集作用:设计好的模型通过训练集最优化后的一个集合
验证集作用:通过验证集去选择上一个集合中的最优模型
测试集作用:通过测试集评估选出来的模型的性能
原因:
如果测试集和验证集是同一个集合,或者说同时用一个集合去做模型的选择和模型的评估是没有意义的,因为同一个数据集上选择出来的模型在同一个数据集上表现一定是和先前一样最优的。而我们想要的是模型的泛化能力,即样本外的情况,因此要划分为两个数据集。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值