目录
正确率(准确率、Accuracy):就是总样本中预测对了多少
精准率(查准率、Precision):预测为正的样本中中实际为正的有多少
召回率(查全率、Recall):实际为正样本中有多少被预测为正
F1-Score(可以理解为是召回和精准的调和平均,在同时关注这两种指标的场景下作为评估维度)
前言
模型评测总基调:只有好不好,没有错不错
在这个领域里模型其实没有bug一说, 我们通过会说一个模型的效果好或者不好, 不会说这个模型有bug -- 因为世界上没有100%满足所有场景的模型。
评测的目的:使用一些评测方法,来把 “作弊的” 模型给揪出来—也就是对模型进行评估,不仅需要有效可行的方法,还需要有衡量模型的评价标准,这就是性能度量
本章学习:分类模型为主的评估指标
一、分类模型是什么?
分类模型就是需要模型帮我们判断这条数据属于哪些分类,比如是信用卡欺诈行为或者不是,这就是二分类。【是否为】
也可以是判断目标是猫,还是狗,还是老鼠或者是人, 这种就是多分类。【是哪类】
二、分类模型的评估方法
2.1.分类模型评估方法常用哪些?
混淆矩阵:是一个矩阵,它显示了模型对于每个类别的预测结果与实际结果的对比情况。
二级指标:正确率(Accuracy),召回率(Recall)、精准率(precision)、 F1-Score ( F1 score,简单理解为 是召回和精准的平均值 )
2.2.混淆矩阵
基于分类模型的种类同样可以分为:二分类的混淆矩阵和多分类的混淆矩阵
以分类模型中最简单的二分类为例,简单来说,用模型预测样本数据的结果该是0还是1的问题
或者说是判断positive还是negative的问题。
我们通过样本的采集,能够直接知道真实情况下,哪些数据结果是positive,哪些结果是negative——这是真实值。同时,我们通过用样本数据跑出分类型模型的结果,也可以知道模型认为这些数据哪些是positive,哪些是negative——这是预测值。
因此,我们就能得到这样四个基础指标,我称他们是一级指标:
真实值是positive,模型认为是positive的数量(True Positive=TP)
真实值是positive,模型认为是negative的数量(False Negative=FN)
真实值是negative,模型认为是positive的数量(False Positive=FP)
真实值是negative,模型认为是negative的数量(True Negative=TN)
记忆方法: 以TP为例:T代表True,表示模型预测的值和实际值一致, Positive为模型的预测值为Positive,总结为真阳 |
这四个指标一起呈现在表格中,就能得到如下这样一个矩阵,我们称它为混淆矩阵(Confusion Matrix):
混淆矩阵 | 真实值 | ||
Positive | Negative | ||
预测值 | Positive | TP | FP |
Negative | FN | TN |