模型的误差包括三个部分:偏差(bias),方差(variance)和噪声(noise)。
模型的设计准则
当模型本身过于复杂时,特征和类别之间的关系中所有的细枝末节都被捕捉,主要的趋势反而在乱花渐欲迷人眼中没有得
到应有的重视,这就会导致过拟合(overfitting)的发生。反过来,如果模型过于简单,它不仅没有能力捕捉细微的相关性,甚
至连主要趋势本身都没办法抓住,这样的现象就是欠拟合(underfitting)。
- 无免费午餐定理说明模型的选取要以问题的特点为根据;
- 奥卡姆剃刀说明在性能相同的情况下,应该选取更加简单的模型;
- 过于简单的模型会导致欠拟合,过于复杂的模型会导致过拟合;
- 从误差分解的角度看,欠拟合模型的偏差较大,过拟合模型的方差较大。
模型的验证方法
由于模型的泛化性能和它的复杂度是直接挂钩的,所以模型验证的任务就是确定模型的复杂度以避免过拟合的发生。
- 模型验证的作用是选择最佳模型并确定其性能;
- 对数据的重采样可以直接实现对样本外误差,也就是泛化误差的估计;