经由偏差 - 方差的权衡,我们可以更好地理解机器学习算法。
偏差(bias)是模型所做的简化假设,其目的是更容易地学习目标函数。
通常,参数算法具有高偏差。它们学习起来很快,且易于理解,但通常不太灵活。反过来,它们对复杂问题的预测性能较低,无法满足算法偏差的简化假设。
决策树是一种低偏差算法,而线性回归则是一种高偏差算法。
方差(variance)表示的是,如果使用不同的训练数据,目标函数的估计有多少的变化量。目标函数是通过机器学习算法从训练数据中估计而成的,因此我们应该期望算法具有一些方差,而不是零方差。
K-Nearest Neighbors算法是一个典型的高方差算法,而线性判别分析是低方差算法的一个例子。
任何预测建模的机器学习算法,都有一个目标:实现低偏差和低方差。反之,该算法应该具有良好的预测性能。机器学习算法的参数化通常是在偏差和方差之间取得平衡。
- 增加偏差会减少差异。
- 增加方差将减少偏差。