数据抽样和模型验证方法、超参数调优以及过拟合和欠拟合问题
样本数据抽样和模型验证方法
在机器学习中,通常把样本分为训练集和测试集,训练集用于训练模型,测试集用于评估模型。在样本划分和模型验证的过程中,存在着不同的抽样方法和验证方法。那么
问题1: 在模型评估过程中,有哪些主要的验证方法,它们的优缺点是什么?
(1)Holdout检验:
Holdout检验
是最简单也是最直接的验证方法,它将原始的样本集合随机划分成训练集
和验证集
两部分。
比方说,对于一个点击率预测模型,我们把样本按照70%~30%的比例分成两部分,70%的样本用于模型训练。30%用于模型验证,包括绘制ROC曲线,计算精确率和召回率等指标来评估模型性能。
Holdout检验的缺点很明显:即在验证集上计算出来的最后评估指标和原始分组有很大的关系。为了消除这个随机性,研究者引入了“交叉检验
”.
(2)交叉检验
k-fold交叉检验
:首先将全部样本划分成