模型评估的目的是衡量模型工作结果的好与坏,从而进一步找到不同模型之间的性能差异,优化模型。
模型评价指标
1.如何评价模型
使用损失函数,计算当前版本的模型的误差,调整参数,减少误差。
2.误差分类
测试集误差
训练及误差
泛化误差
泛化误差(generalization error):模型在所有真实数据上的适用能力,我们无法直接得到所有真实数据,也就无法得到泛化误差,只能通过在测试数据集上的误差来
3.欠拟合与过拟合
overfitted:学习能力太强,训练数据中的垃圾数据也学会了。
underfitting:欠拟合:学习能力过弱,数据集中基本特征没有学会,泛化能力差。
4.性能度量
训练集和测试集分别对模型进行检测,模型在测试集中的泛化能力的强弱。不同的模型的性能度量标准不同,回归模型可以用mse,分类模型可以用kl距离等。
5.精确率和召回率
1.精确率:(precsion)
预测为正的结果中,真实为正的样本的比例,考核的是预测样本
2.召回率:(callback)
真实为正的结果中,预测为正的样本的比例,考核的是真实数据
一个场景:比如有一批有问题的汽车,预测出的有问题的数量为TP,那么TN就是漏掉的那批故障汽车,未来厂家发现了这批汽车有问题,需要召回故障汽车,则召回率字面上应为漏掉的故障汽车/汽车总数,即为TN/TP+TN,这里的召回率等于1-TN/TP+TN。个人感觉相当于命中率。
真实为正 | 真实为负 | |
预测为正 | TP | FP |
预测为负 | TN | FN |
T-true F-false
N-negtive P-positive
注:TP中,第一列为真实值,真实值为true,首位为T,第二列为预测值,预测为负,为N,negtive。