预测误差, 或者说泛化误差(generalization error)可以分解为三个部分:
- 偏差(bias)
- 方差(variance)
- 噪声(noise)
在估计学习算法性能的过程中, 我们主要关注偏差与方差. 因为噪声属于不可约减的误差 (irreducible error).
首先抛开机器学习的范畴, 从字面上来看待这两个词:
偏差
这里的偏指的是 偏离 , 那么它偏离了什么导致了误差? 潜意识上, 当谈到这个词时, 我们可能会认为它是偏离了某个潜在的 “标准”, 而这里这个 “标准” 也就是真实情况 (ground truth). 在分类任务中, 这个 “标准” 就是真实标签 (label).