# 这还是机器学习总结的一小部分,接上一篇基本属术语,最后我会发一个总结(还没整理完)#
综述:
留出法和交叉验证法适用于样本数量较大的数据集,自助法适合样本数量较小的数据集。
1、留出法:
概述:对于一个训练集d,比如有1到10十个数字,我们把1-6分为训练集,8-10分为测试集。这就是留出法。
留出法的要点
我认为有三个:
1、要保证训练集和测试集中的样本分布相似。比如在西瓜里,若有5个好瓜和5个坏瓜,训练集里就要有3个好瓜和3个坏瓜。测试集里就要有2个好瓜和2个坏瓜。
2、进行多次留出,计算多次结果的平均值作为最终结果:我们可以进行多次的随机划分,并把每次的测试集的结果取平均值。
3、训练集的划分尽量占数据集的2/3到4/5之间
2、交叉验证法(k折交叉验证):
概述:把数据集平均分为k部分,每次用k-1部分作为训练集,剩下1部分作为测试集。为减少因样本分布而产生的误差,我们通常会使用不同的划分重复p次,最终取多次结果的均值。
k折交叉验证的特殊情况:留一法
3、自助法:
有数据集d,现在新建一个空集d‘,然后每次随机取一个样本,复制进d’,再把这个样本放回d,这样的过程进行m次,最后就有了d‘作为训练集,d-d'作为测试集。