在我的理解中,偏差与欠拟合有关,方差与过拟合有关。
模型的泛化误差可以表示为:偏差+方差+不可避免误差
1.偏差:
这部分泛化误差的主要原因在于错误的假设,比如假设数据是线性的,而实际是二次的。高偏差的模型有可能对训练数据拟合不足。
2.方差:
这部分误差是由于模型对训练数据微小变化过度敏感导致的。具有高自由度的模型很可能具有高方差,很容易过拟合。
3. 不可避免误差:
这部分误差主要由数据噪声导致,减少这部分误差的唯一方式是数据清理。
增加模型的复杂度会显著提升方差,减小偏差。反之,降低模型的复杂度会提升偏差,减小方差。(想想在这两种情况下究竟会导致过拟合还是欠拟合,实质上很好理解这句话.)