在机器学习的过程中大家一定会接触这三种数据集,他们之间的区别是什么呢?分别的作用是什么呢?
首先需了解:模型中的参数分为两种:超参数、参数
参数:模型根据数据可以自动学习出的变量
超参数:型外部的配置变量,不能通过数据来估计其取值,需要人为设定的参数
比如一个自变量一个因变量的数据集:训练集(x1,y1) 测试集(x2,y2)
训练集:顾名思义它是用来训练模型的,我们将数据中的自变量x1与因变量y1放入模型,不断的训练模型,使模型不断学习x1到y1的规律,模型会自动调整变量,最终得到一个令我们满意的模型。
测试集:用于评价模型的好坏,我们将测试集的自变量x2导入已经训练好的模型,得到输出y2*(y2*:模型预测输出) ,通过比较y2*与y2的差异,进行评价模型。
验证集:用于得出最优超参数,也就是我们设定不同的超参数,然后训练模型,使用验证集去先一步评价这些模型,选出最优的超参数,然后在使用该最优超参数进行建模。