Goodfellow的解释感觉很精辟:
我们在训练网络的时候往往有两大目标:
- 降低训练误差
- 缩小训练误差与测试误差的差距
这两点其实分别对应着: 欠拟合与过拟合。
对于欠拟合,如果模型的容量(拟合各种函数的能力)过低则会导致网络难以拟合训练集-> 训练误差难以下降。
对于过拟合,就是模型的学习能力过强,很好的fit了训练数据,但是却没有对测试集的泛化能力。(train loss低,test loss高)。
一般来说我们在会通过CV来检验。
此外,如果使用MSE均方误差度量泛化误差,我们会发现:
- 增加容量会增加方差,降低偏差。
方差的定义是平凡的;偏差也是:就是所有数据的期望 - 该项的真实值。