数据挖掘:模型状态评估
之前的模型评估仅仅是在评估模型的预测精度怎么样,没有考虑模型过拟合和欠拟合的状态。也就是说,模型拟合出来后,我们要对它进行优化,而如何优化就要看模型目前所处的一个状态,过拟合,欠拟合等。有针对的对模型进行优化。
一、模型状态
模型的状态可分为两类:
- 过拟合:模型在训练集上的效果好,在测试集上的效果差。
- 欠拟合:模型在训练集和测试集上的效果都不好。
而这个效果就是模型评估中的准确度。从准确度的反面,就是误差过大。
误差:学习器的预测输出与样本的真实输出之间的差异
根据数据集的划分,又有如下的定义:
- 训练误差(training error):又称为经验误差(empirical error),学习器在训练集上的误差。
- 测试误差(test error):学习器在测试集上的误差。
- 泛化误差(generalization error):学习器在未知新样本上的误差。
训练模型的意义:得到泛化误差小的学习器。然而&