(一)模型评估与选择
1.1 经验误差与过拟合
错误率(error rate): 分类错误的样本数占样本总数的比例。
精度(accuracy): 1 - 错误率
误差(error): 学习器的实际预测输出与样本的真实输出之间的差异称为误差。
训练误差(training error) / 经验误差(empirical error): 学习器在训练集上的误差。
泛化误差(generalization error): 学习器在新样本上的误差。
过拟合(overfitting): 学习器把训练样本学的太好,把训练样本自身的一些特点当做了所有潜在样本都会具有的一般性质,导致泛化性能下降,这种现象在机器学习中称为过拟合。
欠拟合(underfitting): 与过拟合相反,对训练样本的一般性质尚未学好。
最常见的导致过拟合的因素是学习能力过于强大,而欠拟合通常是由于学习能力低下造成的。
学习能力: 由学习算法和数据内涵共同决定。
机器学习面临的问题通常是NP难甚至更难,而有效的学习算法必然是在多项式时间内运行完成。若可彻底避免过拟合,则通过经验误差最小化就能获得最优解,这就意味着我们构造性的证明了P=NP。因此只要相信P≠NP,过拟合就不可避免。
1.2 评估方法
测试集(testing set)
测试误差(testing error)
通常假设测试样本也是从样本真实分布中独立同分布采样而得。需注意的是,测试集应该尽可能的与训练集互斥。
当我们只有一个包含m个样例的数据集D时,有以下几种常见的做法:留出法、交叉验证法、自助法。
留出法
留出法直接将数据集D划分为两个互斥的部分,其中一部分作为训练集S