一、训练、开发、测试集
1. 可应用的机器学习算法是一个高度迭代的过程,需要不断调整的参数有:层数、隐藏层神经元数、学习速率、激活函数等等。
2. 通常将给定的数据划分为三部分:训练、验证、测试。如果数据集较小:60/20/20, 如果是大数据集(100万条数据以上,验证和测试集各分配1万条即可):98/1/1.
3.如果训练集与验证、测试集来源不同,应保证它们处于同一分布。
二、偏差/方差
1. 模型的偏差和方差要尽可能的综合考虑,在高偏差情况下会出现欠拟合问题,而方差偏高情况会导致过拟合问题。
高方差(过拟合) | 高偏差 | 高方差和高偏差 | 低方差和低偏差 | |
训练集误差 | 1% | 15% | 15% | 0.5% |
验证集误差 | 11% | 16% | 30% | 1% |
但是当训练验证集的误差接近最优误差(亦称贝叶斯误差)时,那么也是可以接受的。比如bayers error = 15%,那么上表的第二个案例便是很合理的。</