数据挖掘:模型状态评估
之前的模型评估仅仅是在评估模型的预测精度怎么样,没有考虑模型过拟合和欠拟合的状态。也就是说,模型拟合出来后,我们要对它进行优化,而如何优化就要看模型目前所处的一个状态,过拟合,欠拟合等。有针对的对模型进行优化。
一、模型状态
模型的状态可分为两类:
- 过拟合:模型在训练集上的效果好,在测试集上的效果差。
- 欠拟合:模型在训练集和测试集上的效果都不好。
而这个效果就是模型评估中的准确度。从准确度的反面,就是误差过大。
误差:学习器的预测输出与样本的真实输出之间的差异
根据数据集的划分,又有如下的定义:
- 训练误差(training error):又称为经验误差(empirical error),学习器在训练集上的误差。
- 测试误差(test error):学习器在测试集上的误差。
- 泛化误差(generalization error):学习器在未知新样本上的误差。
训练模型的意义:得到泛化误差小的学习器。然而,事先并不知道新样本,实际能做的是努力使经验误差最小化。但需要明确一点,即使分类错误率为 0,精度为 100% 的学习器,也不一定能够在新样本上取得好的预测结果。我们实际希望的是在新样本