在机器学习发展的小数据量时代,采用数据三七分,70%验证集,30%测试集,如果没有明确设置验证集,也可以按照60%训练集,20%验证集,20%测试集。
在大数据时代,可能不需要拿出20%的数据作为验证集,假如我们有100万条数据,其中1万条作为验证集,1万条作为测试集,100万里取1万,比例是1%,即:训练集占98%,验证集和测试集各占1%,对于数据量过百万的应用,训练集可以占到99.5%,验证和测试集各占0.25%,或者验证集占0.4%,测试集占0.1%。
在机器学习发展的小数据量时代,采用数据三七分,70%验证集,30%测试集,如果没有明确设置验证集,也可以按照60%训练集,20%验证集,20%测试集。
在大数据时代,可能不需要拿出20%的数据作为验证集,假如我们有100万条数据,其中1万条作为验证集,1万条作为测试集,100万里取1万,比例是1%,即:训练集占98%,验证集和测试集各占1%,对于数据量过百万的应用,训练集可以占到99.5%,验证和测试集各占0.25%,或者验证集占0.4%,测试集占0.1%。