交叉验证:重复的使用数据,把得到的样本数据进行切分,组合为不同的训练集和测试集,用训练集来训练模型,用测试集来评估模型预测的好坏。交叉验证用在数据不是很充足的时候。
交叉验证的作用
- 交叉验证用于评估模型的预测性能,尤其是训练好的模型在新数据上的表现,可以在一定程度上减小过拟合
- 可以从有限的数据中获取尽可能多的有效信
交叉验证常见形式
- 简单交叉验证:随机的将样本数据分为两部分(比如: 70%的训练集,30%的测试集),然后用训练集来训练模型,在测试集上验证模型及参数。接着,我们再把样本打乱,重新选择训练集和测试集,继续训练数据和检验模型。最后我们选择损失函数评估最优的模型和参数。
- S折交叉验证(s-fold cross validation):S折交叉验证会把样本数据随机的分成S份,每次随机的选择S-1份作为训练集,剩下的1份做测试集。当这一轮完成后,重新随机选择S-1份来训练数据。若干轮(小于S)之后,选择损失函数评估最优的模型和参数。
- 留一交叉验证(leave-one-out cross validation):它是第二种情况的特例,此时S等于样本数N,这样对于N个样本,每次选择N-1个样本来训练数据,留一个样本来验证模型预测的好坏。此方法主要用于样本量非常少的情况,比如对于普通适中问题,N小于50时,我一般采用留一交叉验证。
参考文献:
https://www.cnblogs.com/pinard/p/5992719.html,
http://scikit-learn.org/stable/modules/cross_validation.html,
https://blog.csdn.net/aliceyangxi1987/article/details/73532651,
http://www.csuldw.com/2015/07/28/2015-07-28%20crossvalidation/