思路:
第1步,将数据等分到s份。
第2步,下列步骤重复s次。
(1)每一次迭代中留存其中一份数据。第一次迭代中留存第1份,第二次留存第2份,其余依此类推,第i次留存第i份。
(2)用其他s-1份数据的信息作为训练数据,训练分类器(第一次迭代中利用从第2份到第s份的信息进行训练分类器)。
(3)利用留存的数据作为测试数据,来测试分类器并保存测试结果。
第3步,上述步骤完成后,从s个分类器中,选择最好的一个最为分类模型【如:用经验风险最小进行模型选择】。
【注】假设s=10和s=2,比较哪一个分类效果好?
基于10折交叉验证得到的结果可能更接近于分类器的真实性能。之所以这样,是因为每次采用90%而不是2折交叉验证中仅仅50%的数据来训练分类器。