问题难度(5分制):2
模型评估方法:
1.Holdout检验:
将原始集合按照7:3比例随机划分训练集和验证集;
7份用来训练模型,3份用来检验模型;
存在问题:
验证集的验证结果依赖于原始分组。
2.交叉检验(留一验证):
为消除Holdout检验中的验证结果依赖原始分组问题而提出;
将原始数据分为K(通常K=10)个大小相同的组,遍历十个组,每一以当前一组作为验证集,剩下九组作为训练集。
流程结束后,将十次的结果做以平均为最后的检验结果;
存在问题:
在样本数量比较大的情况下,开销较大;
留一验证来源于留P验证,即每次留下K组中的P组样本进行验证,剩下的训练。由于开销过高,故而一般将P置1进行使用,变成留一验证;
3.自助检验:
自助检验的灵感来源于自助采样法。对于总数为N的样本集合,进行N次又放回的随机抽样,得到大小为N(由于有放回所以会出现重复数据)的训练集。将过程中未被选中的数据作为验证集进行模型验证评估。
优点:
前两种评估方法中都是基于训练集和验证机划分的方法进行评估,但对于样本规模比较小的情况时,这样的划分会让训练样本进一步变小,自助验证的有放回抽样解决了这个问题。