零、概念
分层采样:保留类别比例的采样
一、留出法
拆成两个互斥的集合,一个训练集S,一个测试集T
缺点:T小时评估结果不够稳定准确;S小时,训练时的数据S与S+D差别较大,训练出来的模型与用S+D训练出来的模型差别较大,降低了评估结果的保真性
二、交叉验证法
k折交叉验证的k个测试结果取平均作为最终结果
留一法是对m个样本进行m折的特例,优点是不用考虑分层采样,缺点是开销大
三、自助法
有放回随机采样,直到采样到的数据与原始数据集一样大,约有36.8%的数据未被采样到,这些数据作为测试数据/袋外数据,测试结果为包外估计(out of bag estimate)
lim(1-1/m)^m=1/e≈0.368
优点:训练样本规模可以达到给定的数据集大小
缺点:改变初始化数据集的分布