机器学习中讨论某模型时,提到偏差-方差权衡。
如上图,用直线拟合后,相比原来的点其偏差最大,最后一个图则可完全拟合数据点,其偏差最小。但是拿第一个直线模型去预测未知数据,可能会相比最后一个模型更准确,因为最后一个模型过拟合,即第一个模型的方差比最后一个模型小。
一般而言,高偏差意味着欠拟合,高方差意味着过拟合。两者之间有如下关系:
随着模型复杂度增加,模型对于训练集的偏差越小,其方差越大;在训练上表现非常好,但测试集上效果不佳,原因就是过拟合了。我们需要在方差和偏差之间做出一个权衡,如下图所示。