在分析模型的泛化性能时,经常用到偏差和方差。泛化误差可以分解为偏差,方差与噪声之和。
自己的理解:
- 偏差:在某算法下期望的预测值与真实的标记(客观存在的标记,而不是数据库人工的标记)度量了学习算法的期望预测与真实结果的偏离程度,刻画了学习算法本身的拟合能力,偏差的主要来之算法本身的拟合能力和数据库的标注误差(最主要来至于算法本身);
- 方差:使用相同的样本不同的训练数据集得到的模型的预测值与期望值的差的期望,度量了同样大小的训练集的变动所导致的学习性能的变化,即刻画了数据扰动所造成的影响,表示训练数据的规模导致的预测值与期望值之间误差(理论上数据集无穷大时,模型在该训练数据集的预测值期望值相同,在数据集规模有限时,就会有模型的预测值与期望值存在误差,这个误差的期望反应了数据规模对泛化性能的影响)。
参考
1. http://liuchengxu.org/blog-cn/posts/bias-variance/
2. 《机器学习》周志华