模式识别学习笔记——绪论
一、从数据集D中产生训练集S和测试集T,主要有以下方法:
——hold-out(留出法)
——cross-validation(交叉验证法)
——bootstrapping(自助法)
hold-out(留出法)
将数据集分为两个互斥的集合,D=S∪T,且S∩T=∅。
attention:
1、训练集和测试集中的类别比例相似,可以利用分层抽样得到。比如说1000个样本中有男女各500个,若训练集和测试集数据个数分别为800和200个,则训练集应该包含400个男,400个女;测试集应该包含100个男,100个女。
2、即使是分层抽样,仍有很多种划分方式对数据集进行分割,因此一般采用若干次随机划分、重复进行实验评估后取平均值作为留出法的评估结果