本文为原创文章,转载请注明出处!
在训练数据的过程或者参加数据比赛的时候,常常会遇到数据量不够大的情况,在一次比赛过程我学到一个小技巧—K折交叉验证法(k-fold CrossValidation),下面和大家分享一下。
1 变形前的K折
在遇到K折交叉验证之前,往往使用的是简单交叉验证(hold -out cross validation),也就是从全部的训练数据 D中随机选择 d的样例作为训练集 train,剩余的作为测试集 test(红色方框表示)。相信大家一定都非常熟悉,如果还不是很了解赶紧看看大牛Andrew Ng的课程吧。
在这里,数据都只被所用了一次,没有被充分利用
那么,怎样提高数据的利用率呢?
2 K折就是讲数据集切分成K小块,验证集和测试集相互形成补集,循环交替
纽约大学博士Seymour Geisser提出K折交叉验证法,具体步骤如下:
将数据集D随机分为k个包(这里假定K=6)。
每次将其中一个包作为测试集test,剩下k-1个包作为训