如何度量模型的性能
对于分类和回归两类监督学习,分别有各自的评判标准
分类:预测的变量的离散的
回归:预测的变量的连续的
一、分类模型的评估
在对比不同模型的能力时,使用不同的性能度量时往往会导致不同的判断结果。因为不同的度量指标侧重点不同。
1. 准确率/精度(Accuracy)、查准率 / 精确率(Precision)、查全率 / 召回率(Recall)
对于二分类问题:
查准率表现为预测为正的样本中有多少是真的正样本
查全率表现为所有真的正样本中到底有多少被检测出来。
查准率和查全率的应用场景:
在审判犯罪嫌疑人时,我们希望司法系统的查准率越高越好,即尽量不要冤枉无辜者,因为误判为正样本的后果很严重;
对于银行的欺诈检测系统来说,通常希望它的查全率越高越好,即尽量把欺诈账户识别出来,因为漏检会带来很大损失,而误判为正样本则影响不大。
这意味着模型的好坏是相对的,什么样的模型是好的,不仅取决于算法和数据,还取决于任务需求。
2. 混淆矩阵
混淆矩阵的每一列代表预测值,每一行代表的是实际类别。
这个名字来源于它可以非常容易的表明多个类别是否有混淆(一个class被预测成另一个class)。
对于二分类:
对于多分类:
假设有一个用来对Dog、Cat、Tiger进行分类的系统,混淆矩阵就是为了进一步分析性能而对该算法测试结果做出的总结。假设总共有 27只动物:3只狗, 6只猫, 12只老虎。预测结果的混淆矩阵如下图:
实际有12只老虎,有3只被误判成狗,4只被误判成猫
所有正确的预测结果都在对角线上,所以从混淆矩阵中可以很方便直观的看出哪里有错误。
3. F 1 F1 F1和 F β Fβ Fβ
F 1 F1 F1基于查准率与查全率的调和平均定义的,更接近于两个数较小的那个,所以查准率和查全率接近时, F 1 F1 F1值最大。
2 F 1 = 1 P r e c i s i o n + 1 R e c a l l \frac{2}{F1} = \frac{1}{Precision} + \frac{1}{Recall} F12=Precision1+Recall1
在一些应用中,对查准率和查全率的重视程度有所不同,因此就有了 F β