什么是交叉验证法?
基本思想就是将原始数据(dataset)进行分组,一部分作为训练集来训练模型,另一部分作为测试集来评价模型。
为什么用交叉验证法?
1、交叉验证用于评估模型的预测能力。尤其是训练好的模型在新数据上的表现,可以在一定程度上减小过拟合。
2、还可以从有限的数据中获取尽可能多的有效信息。
主要有哪些方法?
列举两个:
1、holdout cross validation
在机器学习任务中,拿到数据后,我们首先将原始数据集分为三部分:训练集、验证集和测试集。
训练集用于训练模型,验证集用于模型的参数选择配置,测试集对于模型来说是未知数据,用于评估模型的泛化能力。
这个方法操作简单,只需要随机把原始数据分为3组即可。
不过只做一次分割,它对训练集、验证集和测试集的样本数比例,还有分割后数据的分布是否和原始数据集