训练集、验证集和测试集

最新推荐文章于 2023-09-30 10:52:04 发布

然后请继续

最新推荐文章于 2023-09-30 10:52:04 发布

阅读量771

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_40483666/article/details/100552887

版权

deep learning 专栏收录该内容

0 篇文章 0 订阅

订阅专栏

参考：https://blog.csdn.net/kieven2008/article/details/81582591

一、含义与区别

一般做预测分析时，会将数据分为两大部分。一部分是训练数据，用于构建模型，一部分是测试数据，用于检验模型。

训练集（train set） —— 用于模型拟合的数据样本。

在数据分析中，有些算法需要利用现有的数据构建模型，比如贝叶斯分类器，决策树，线性回归等，这类算法统称为监督学习（Supervisied Learning）算法。构建模型需要的数据称之为训练数据（Train Data）。

验证集（development set）—— 是模型训练过程中单独留出的样本集，它可以用于调整模型的超参数和用于对模型的能力进行初步评估。

可选，用于辅助模型构建，可以重复使用。

测试集 —— 用来评估模最终模型的泛化能力。但不能作为调参、选择特征等算法相关的选择的依据。

一个形象的比喻：

训练集-----------学生的课本；学生根据课本里的内容来掌握知识。

验证集------------作业，通过作业可以知道不同学生学习情况、进步的速度快慢。

测试集-----------考试，考的题是平常都没有见过，考察学生举一反三的能力。

传统上，一般三者切分的比例是：6：2：2，验证集并不是必须的。

关系图

二、测试集的意义

a)训练集直接参与了模型调参的过程，显然不能用来反映模型真实的能力（防止课本死记硬背的学生拥有最好的成绩，即防止过拟合)。

b)验证集参与了人工调参(超参数)的过程，也不能用来最终评判一个模型（刷题库的学生不能算是学习好的学生）。

c) 所以要通过最终的考试(测试集)来考察一个学(模)生(型)真正的能力（期末考试）。

但是仅凭一次考试就对模型的好坏进行评判显然是不合理的，所以接下来就要介绍交叉验证法

三、交叉验证法

K折交叉检验的大致思想是将训练集大致分为K个子样本，每次取一个样本作为验证数据，取余下的K-1个样本作为训练数据。模型构建后作用于验证数据上，计算出当前错误率。重复K次，将K次错误率平均，得到一个总体的错误率。可以通过整体错误率，估计当前整体数据用于建模的错误率。

举个例子，K = 10（常见情况），求出总体错误率为8.7%。那么将当前的所有数据全部作为训练数据，得到的模型的错误率90%的可能在9.7%左右。

然后请继续

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
训练集、验证集和测试集

参考：https://blog.csdn.net/kieven2008/article/details/81582591一、含义与区别一般做预测分析时，会将数据分为两大部分。一部分是训练数据，用于构建模型，一部分是测试数据，用于检验模型。训练集（train set） —— 用于模型拟合的数据样本。在数据分析中，有些算法需要利用现有的数据构建模型，比如贝叶斯分类器，决策树...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。