如果一个机器学习算法表现不理想,要么是欠拟合,要么是过拟合。越高次方越能代表我们的训练集,但能适应训练集并不代表能推广至一般情况。
高偏差:训练误差很大,训练误差与测试误差很小,随着样本增多,训练误差增大。
高方差:训练误差很小,训练误差与测试误差差距很大,随着样本增多,测试误差会减小。
训练集误差和交叉验证集误差近似时:高偏差。
交叉验证集误差远大于训练集误差时:高方差。
在训练模型的过程中,一般会使用一些正则化的方法来防止过拟合。
当 λ 较小时,训练集误差较小(过拟合)而交叉验证集误差较大
随着 λ 的增加,训练集误差不断增加(欠拟合),而交叉验证集误差则是先减小后
学习曲线是学习算法的一个很好的合理检验。
解决高方差:
1. 获得更多的训练实例
2. 尝试减少特征的数量
3. 尝试增加正则化程度 λ
解决高偏差:
1. 尝试获得更多的特征
2. 尝试增加多项式特征
3. 尝试减少正则化程度 λ