关于test set和validation set

最新推荐文章于 2022-05-09 23:16:33 发布

q12373

最新推荐文章于 2022-05-09 23:16:33 发布

阅读量947

点赞数

文章标签：机器学习

原文链接：https://www.cnblogs.com/WayneZeng/p/7802759.html

版权

training set是用来训练模型或确定模型参数的，如ANN中权值等； validation set是用来做模型选择（model selection），即做模型的最终优化及确定的，如ANN的结构；而 test set则纯粹是为了测试已经训练好的模型的推广能力。当然，test set这并不能保证模型的正确性，他只是说相似的数据用此模型会得出相似的结果。但实际应用中，一般只将数据集分成两类，即training set 和test set，大多数文章并不涉及validation set。

train

训练数据。拟合模型，用这部分数据来建立模型。

是一些我们已经知道输入和输出的数据集训练机器去学习，通过拟合去寻找模型的初始参数。例如在神经网络（Neural Networks)中，我们用训练数据集和反向传播算法（Backpropagation）去每个神经元找到最优的比重（Weights)。

validation

验证数据。train建了一个模型，但是模型的效果仅体现了训练数据，但不一定适合同类的其他数据，所以建模前数据分成两部分，一部分为训练数据，一部分为验证数据（两部分数据的比例大致为7:3，这取决于你验证的方法）。另外，你也可能训练多个模型，但不知哪个模型性能更佳，这时可以将验证数据输入不同模型进行比较。

是一些我们已经知道输入和输出的数据集，通过让机器学习去优化调整模型的参数，在神经网络中，我们用验证数据集去寻找最优的网络深度（number of hidden layers)，或者决定反向传播算法的停止点；在普通的机器学习中常用的交叉验证（Cross Validation) 就是把训练数据集本身再细分成不同的验证数据集去训练模型。