模型的泛化误差不仅包括该模型在训练集上的误差,还应包括在测试样本上的期望误差。
如果拟合的线性模型不能很好地捕捉到训练集数据的模式,称为有较大的偏差(bias),也就是模型欠拟合。
如果拟合的线性模型偏差较小,但不能很好的预测训练集以外的数据,称为有较大的方差(variance),也就是模型过拟合。
方差与偏差共同构成泛化误差,泛化误差的式子如下:
也就是说,泛化误差可分解为偏差、方差与噪声之和.
一般来说,偏差与方差是有冲突的,这称为偏差一方差窘境
(bias-
variance dilemma). 下图
给出了一个示意图给定学习任务,假定我们能控制学习算法 的训练程度,则在训练不足时?学习器的拟合能力不够强,训练数据的扰动不足 以便学习器产生显著变化,此时偏差主导了泛化错误率;随着训练程度的加深