偏差—方差分解:是解释算法泛化性能的一种重要工具。
泛化误差可分解为偏差、方差与噪声之和
偏差:学习算法的期望预测与真是结果的偏离程度,刻画了学习算法本身的拟合能力。
方差:同样大小的训练集的变动所导致的学习性能的变化,刻画了数据扰动所造成的影响。
噪声:在当前任务上任何学习算法所能达到期望泛化误差下界,即刻画了学习问题本身的难度。
给定学习任务,为了取得更好的泛化性能,则需是偏差较小,既能充分你和数据,并使方差较小,即使得数据扰动产生的影响小。
偏差—方差窘境
假定:我们能控制学习算法的训练程度,则在训练不足时,学习器的拟合能力不够强,训练数据的扰动不足以使学习器产生显著变化,此时偏差主导了泛化错误率;随着训练程度的加深,学习期的拟合能力逐渐增强,训练数据发生的扰动渐渐能被学习器学到,方差逐渐主导了泛化错误率;在训练程序充足后,学习器的拟合能力已非常强,训练数据发生的轻微扰动都会导致学习器发生显著变化,若训练数据自身的,非全局特性被学习器学习到了,则将发生过拟合。
参考文献:西瓜书