一、过拟合问题(Overfitting)
我们知道,机器学习训练的目的是为了让模型更好的拟合实际情况,从而指导我们进行预测。评价一个模型拟合度是否优良的参考之一是它与实际数据集的偏差程度,我们用代价函数来定量,一般代价函数越小越好。那么,是否会有一些意外情况出现呢?
1、线性回归的情况:
对于图中的数据集,分别使用了不同次数的多项式进行拟合:线性回归模型下,模型预测与数据集有一些差距,但是大方向是不错的(欠拟合,underfit/high bias);二次多项式模型下,模型与数据集的偏差更小了,模型曲线光滑平整(ok);四次多项式模型下,模型与数据集完全对应上,没有偏差,但是曲线歪曲,在大方向上似乎并不是特别准(过度拟合Overfit/high variance)。
PS:Overfitting: if we have too many features, the learned hypothesis may fit the training set very well(代价函数=0), but fail to generalize(泛化) to new examples.
2、逻辑回归:
同样的,对于图