- 留出法
定义:将数据集划分为两个互斥集合,一个做测试集、一个做训练集(2/3~4/5
注意:测试集/训练集划分要尽可能保持数据分布一致(分层
一次结果不够可靠,多次随即划分,重复实验取平均值
- 交叉验证法
定义:将数据集划分为k个大小相似的互斥子集(划分要尽可能保持数据分布一致); 每次用k-1个子集做训练集,剩下的一个做测试集,得到k组测试集/训练集;返回k组结果的平均值
注意:多次随即划分,重复实验取平均值
特例:留一法(LOOCV)不受随机样本划分方式的影响
- 自助法
定义:A(m):包含m个样本的数据集A
B(m):每次从A中随机选一个样本copy到B中,放回A, 重复m次,(即m次有放回采样,A中约有36.8%样本未出现在B中)
B做训练集,A\B做测试集,包外估计
在数据集小,难以划分测试集/训练集时有用;
能从初始数据集产生多个不同的训练集,适用于集成学习;
改变初始数据集分布,引入估计偏差