阿里云天池零基础入门CV赛事(6)——模型训练与验证

最新推荐文章于 2021-07-08 21:07:03 发布

Alx_2020

最新推荐文章于 2021-07-08 21:07:03 发布

阅读量361

点赞数

文章标签：机器学习

本文链接：https://blog.csdn.net/Alx_2020/article/details/106437007

版权

本文介绍了机器学习中的模型训练与验证，包括训练集、验证集和测试集的划分，如70/30或60/20比例。随着数据量增加，验证集和测试集占比变小。讨论了留出法、交叉验证法和自助采样法三种验证集划分方法，以及欠拟合和过拟合的概念。

摘要由CSDN通过智能技术生成

Task4 模型训练与验证

1 训练集、验证集和测试集

训练集（Train Set）：模型用于训练和调整模型参数
验证集（Validation Set）：用来验证模型精度和调整模型超参数
测试集（Test Set）：验证模型的泛化能力
在这里插入图片描述
假设用一个长方形表示训练数据，我们通常会将这些数据划分成三部分，一部分作为训练集(Train Set)，一部分作为验证集(Validation Set)，最后一部分则作为测试集(Test Set)。
在机器学习发展的小数据量时代，常见做法是将所有数据三七分，就是人们常说的 70% 训练集，30%测试集，如果没有明确设置验证集，也可以按照 60%训练集，20%验证集和 20%测试集来划分。
但是在大数据时代，我们现在的数据量可能是百万级别，那么验证集和测试集占数据总量的比例会趋向于变得更小。假设我们有 100 万条数据，其中 1 万条作为验证集，1 万条作为测试集， 100 万里取 1 万，比例是 1%，即：训练集占 98%，验证集和测试集各占 1%。