今日学习对模型的评估与选择,总结如下:
1.一些重要基本概念。
- 错误率:如果在m个样本中有a个样本分类错误,则错误率E=a/m。
- 误差:学习器(即模型)的实际输出与样本的真实输出之间的差异称为误差
- 经验误差与泛化误差:学习器在训练集上的误差称为训练误差。而在新样本上的误差为泛化误差。
- 过拟合与欠拟合:过拟合是机器学习能力过强而将训练样本中的一些自身特点当做了所有潜在样本都有的一 般性质,使得学习器的泛化性能下降。欠拟合是指学习器学习能力低下,对训练样本的一般性质尚未学习好。
- 错误率和精度:错误率是分类错误的样本数占样本总数的比例,精度则是分类正确的样本数占样本数的比例。
- 查全率: 真实正例被预测为正例的比例 。
- 真正例率: 真实正例被预测为正例的比例 。
- 查准率:预测为正例的实例中真实正例的比例 。
- 假正例率: 真实反例被预测为正例的比例。
- P-R曲线:横轴为查全率,纵轴为查准率。
- BEP:平衡点,此点查准率等于查全率。
- F1:F1=2PR/(P+R)
2. 模型评估的方法。
我们通常通过实验测试来对学习器的泛化误差进行评估并进行选择。所以,我们通常需要一个测试集来测试学习器对新样本的预测能力,并且将测试集上的测试误差近似为泛化误差来便于评估。其中我们应尽量保持训练集和预测集之间的独立性,所以使二者尽可能的互斥。通常来说我们只有一个数据集,所以我们需要通过一些方法使我们做到我们可以训练,又可以测试。我们通常使用如下三个方法: