本次主要针对西瓜书中机器学习中的模型评估与选择进行学习 1.经验误差与过拟合 所谓的“误差”指的是学习器的实际预测输出与样本的真实输出之间的差异。学习器在训练集上的误差称为“训练误差 ”或“经验误差”,在新样本上的误差称为“泛化误差”。对于机器学习,得到一个泛化误差小的学习器是必要的。因此,在新样本上获得一个良好的分类器的目的就是在训练样本中尽可能学出适用于所有潜在样本的“普遍规律”,这样才能在遇到新样本时做出正确的判别。然而,学习器把训练样本学得“太好的时候”,就会把训练样本自身的一些特点当做了所有潜在样本都会具有的一般性质,这样就会导致泛化性能下降。这就是“欠拟合”,那么,“过拟合”指的就是对训练样本的一般性质尚未学好。 学习能力是否“过于强大”,是由学习算法和数据内涵共同决定的。 (1) 对于上述的欠拟合该如何解决呢? 1.如果是决策树,那么可以试着扩展分支; 2.如果是神经网络学习,那么可以增加训练轮数。 (2) 对于过拟合就不是那么简单了,各类学习算法都必然会有一些过拟合的解决措施,只能做到“缓解”或者减少风险。有效的学习算法是在多项式时间内完成,这就表明NP难甚至更难。如果彻底避免过拟合,那么可以通过经验误差最小化获最优解,即:P=NP;但是往往P