模型评估指标 -1- 基础篇 -FPR/TPR/F1/ROC/AUC

导语:本文是模型评估指标系列的第一篇,将详细地介绍分类模型中基于混淆矩阵衍生出来的各个指标的计算公式,如准确率,精确率,召回率,FPR,TPR,ROC曲线的绘制逻辑,AUC的计算公式等。本文首发在个人知乎和微信公众号:一直学习一直爽


Evaluating Learning Algorithms: A Classification Perspective书中有一幅模型评估指标的全局图,如下:
在这里插入图片描述

该图基本包含了日常我们常用的各种指标,如果不想看那么详细,可以看以下总结:
在这里插入图片描述

混淆矩阵-Confusion Matrix

在分类模型中,假如给定的类别个数为 N N N,那么混淆矩阵的大小为 N × N N \times N N×N,默认地,会把列作为真实的类别,行作为预测的类别,如下图举例所示:在这里插入图片描述
由是我们常见的分类任务基本上为二分类,如预测商品否被点击,是否被购买,借款人是否发生逾期等,下面的计算过程就以二分类混淆矩阵来进行举例,另外,很多模型输出的预测值 p p p在[0,1]之间,并不是离散取值{0,1},为了构建混淆矩阵,需要确定一个阈值 t t t,使得预测值 p > t p > t p>t的样本预测为1,否则为0。

由于ROC这样的曲线来源于雷达,后面又应用到医学领域,因此常常把正样本称为阳性(Positive,P,标签为1), 负样本称为阴性(Negative, N,标签为0),而机器学习领域习惯用正负样本来表示,当初学二分类中的混淆矩阵时,很多同学会被TP,FP,FN,TN等缩写搞混,下面对其做一些方便记忆的说明:在这里插入图片描述

从上图的最左边的表格,可以很清楚地显示4个区域内样本的含义,沿着正对角线,可知,样本的预测标签和实际标签都是一致的,因此在第二个表格中将其标记为True,负对角线上预测标签和真实标签不一致,标记为False,在第三个表格中,结合预测标签的类别(Positive,Negative)和各个区域的True,False标记,得到了经常被搞混的4个缩写(不需要去记忆,记住上述推演过程即可):

  • TP:实际为正类,预测也为正类
  • TN:实际为负类,预测也为负类
  • FP:实际为负类,预测为正类
  • FN:实际为正类,预测为负类

有了上述混淆矩阵和各个区域的标识,就可以开始计算各个指标了;

准确率-Accuracy

显然,准确率为混淆矩阵中正对角线上被分类正确样本之和:正样本,模型预测也为正样本(TP) ,负样本,模型预测也为负样本(TN).
A c c u r a c y = T P + T N T P + F P + F N + T N \begin{aligned} Accuracy = \frac{TP + TN}{TP + FP + FN + TN} \end{aligned} Accuracy=TP+FP+FN+TNTP+TN
在这里插入图片描述

精确率-Precision

  • 别名:查准率

精确率Precision的计算如下图所示,表示的含义为,从模型预测的角度来看,在所有预测为正样本中,标签与真实样本同为正样本的比例, 表示模型对于预测正确的置信度:
P r e c i s i o n = T P T P + F P \begin{aligned} Precision = \frac{TP}{TP + FP} \end{aligned} Precision=TP+FPTP
在这里插入图片描述

召回率-Recall

  • 别名:查全率

召回率Recall计算如下图所示,表示的含义为,从真实标签的角度来看,在所有的真实正样本中,被模型正确地预测为正样本所占的比例
R e c a l l = T P T P + F N \begin{aligned} Recall = \frac{TP}{TP + FN} \end{aligned} Recall=TP+FNTP
在这里插入图片描述

F1-调和精确率与召回率

从上述Precision,Recall的计算过程可以发现(分子是相同的),其计算都是围绕着正样本(实际类别和预测类别)来计算的,同时Precision,Recall天然存在着矛盾,如下图所示:

  • 当把所有样本全部预测为正样本时(模型过分贪婪,模型分 > = 0 >=0 >=0即为正样本),显然召回率可以达到最大,取值为1,但是精确率将显著下降
  • 当设定很大的阈值(模型过分保守,模型分 > = 0.9 >=0.9 >=0.9才是正样本),刚好仅有一个样本预测正确,那么精确率取值为1,但召回率将很低
    在这里插入图片描述

因此,为了调和两者之间的矛盾,将引入F1指标来综合反映模型的性能:
2 F 1 = 1 P + 1 R \begin{aligned} \frac{2}{F1} = \frac{1}{P} + \frac{1}{R} \end{aligned} F12=P1+R1
另外,还有一个更通用的计算 F α F_{\alpha} Fα值的公式,当 α = 1 \alpha=1 α=

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值