如何理解训练集、验证集与测试集？

最新推荐文章于 2021-08-03 18:16:30 发布

Aileen爱学习

最新推荐文章于 2021-08-03 18:16:30 发布

阅读量852

点赞数 1

文章标签：神经网络深度学习 python

本文链接：https://blog.csdn.net/weixin_38224000/article/details/104435193

版权

训练集：

模型训练的过程其实就是在求【参数】的过程，我们先假定某类【模型】（比如决策树模型），然后用【训练集】来训练，学习到对应的最优的【参数】。但是问题在于，我们没有办法保证我们假设的那个【模型】是最优的，我们极有可能假设错误对吧。那怎么办呢？有一个简单的解决方案就是我们假设一堆的模型，然后用【训练集】分别对这些模型来进行训练，学习到每一个【模型】中分别对应的参数——这是第一步，也就是【训练集】的任务。

验证集：

那么我们已经学习到了一堆的模型了，哪一个模型是最好的呢？这其实就是要来考察不同结构的模型在这些data上的优劣程度了。通常来说，我们用【超参数】来控制模型的结构（例如正则项系数、神经网络中隐层的节点个数，k值等）。那这个时候，我们就可以找一些数据来训练和学习我们具体的超参数了。用什么样的数据呢？直接用【训练集】肯定是不行的，因为我们现在的每一个模型都是用【训练集】来学习出来的，他们在【训练集】上的效果已经很好了，继续用它们来训练超参数不会有太大的效果，所以说我们就选择了使用【验证集】来选择这些超参数。这是第二步，也就是【验证集】的任务，我们也通常称之为【调参】。

测试集：

最后，当我们学习到了【参数】和【非参数】后，我们就确定了我们具体的模型结构，这个时候我们再用一些数据来测试这个模型在新的数据上的效果。因此，我们就不能够使用之前已经使用过的数据了，而要选择一个全新的数据集，这既是【测试集】。这个时候我们就要来看最后的结果怎么样，如果结果很好，那么说明一切顺利，但是如果结果很差，那问题出在哪里呢？其中可能的一个原因就是我们事先假定的那一类的【模型】（比如我们最先选择的决策树模型）并不是适合来分析这些数据，因此哪怕我们选择出了这一堆决策树模型中最好的一个（超参数的选择过程），它的效果依旧不怎么样。

Aileen爱学习

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
如何理解训练集、验证集与测试集？

训练集：模型训练的过程其实就是在求【参数】的过程，我们先假定某类【模型】（比如决策树模型），然后用【训练集】来训练，学习到对应的最优的【参数】。但是问题在于，我们没有办法保证我们假设的那个【模型】是最优的，我们极有可能假设错误对吧。那怎么办呢？有一个简单的解决方案就是我们假设一堆的模型，然后用【训练集】分别对这些模型来进行训练，学习到每一个【模型】中分别对应的参数——这是第一步，也就是【训练集】...
复制链接

扫一扫