参考:
1.Hold-Out Method
原始数据分成两组,一组训练集,一组验证集,利用训练集训练分类器,验证集验证模型,记录最后的分类准确率。
优点:简单,易处理
缺点:最终准确率与原始数据分组有很大关系。(训练集样本太少,不足以代表母体样本的分布。)
2.K-fold Cross Validation(K-CV)
分成K组,一般均分,将每个子集数据分别做一次验证集,其余的K-1组自己数据作为训练集,这样会得到K个模型,用这K个模型最终的验证集的分类准确率的平均数作为此K-CV下分类器的性能指标。K一般从3开始取,一般k=10就足够了,样本特别少才取2。
优点:避免过拟合和欠拟合
缺点:K值的选取
3.Leave-One-Out Cross Validation(LOO-CV)(如果样本条数为N,那这个就是N-CV)
优点:1.每一回合中几乎所有的样本都用于训练模型,因此最接近原始样本的分布,这样评估所得的结果比较可靠。2.
实验过程中没有随机因素会影响实验数据,确保实验过程是可以被复制的。
缺点:计算成本超级高。