- S-fold Cross Validation:中文为S折交叉验证,即将数据集分成S份,在第i次试验中,使用D-Di作为训练集,Di作为测试集进行模型的训练,最终取平均误差最小的模型。
- 留一交叉验证(Leave-one-out Cross Validation):这是S折交叉验证的特殊情况,即S=N,每次测试集中只有1个数据。
- 简易交叉验证:将数据集随机打乱,然后选取数据集的前70%作为训练集,剩余作为测试集,比例可以视具体情况而定。
一般情况下我们会在训练模型时使用简易交叉验证的方法,将数据集划分为训练集和测试集,训练集用于训练模型参数,验证集用于评估模型性能好坏即泛化能力。
当数据集规模不大时,划分出用来评估模型性能的验证集将会更小,由此得到的性能指标将不具有代表性,会根据每次训练选取的验证集不同有很大差异。为了更好地评估模型性能,充分利用整个数据集,可以采用 S 折交叉验证的方法,将数据集等分为 S 份,每次只选取其中的 1 份作为验证集,将其余 S-1 份作为训练集。完成一次训练和验证后,再选取另外 1 份作为验证集,其余 S-1 份作为训练集。如此往复,直到进行 S 次,遍历整个数据集,最后再取 S 次验证结果的平均值最为最后模型性能评判的指标。
简易交叉验证是 S 折交叉验证的一种特殊情况,划分后每一份只含有 1 个数据。