如何通俗理解准确率、精确率、召回率、F1score、AUC、ROC

本文我会用最通俗的语言帮助大家快速理解并记住准确率、精确率、召回率、F1score,AUC、ROC以及特异度。

这些指标其实乍一看能知道都是什么,但是一用起来记不住定义

1.第一步 认识混淆矩阵

借用一下别人的图,这俩图说的是一个内容,大家稍微消化一下,右图中的reference是参考的意思,可以理解为实际值。

我们看一下定义

  • 真正类(True Positives, TP):模型正确预测为正类的正类样本数。
  • 假正类(False Positives, FP):模型错误预测为正类的负类样本数。
  • 真负类(True Negatives, TN):模型正确预测为负类的负类样本数。
  • 假负类(False Negatives, FN):模型错误预测为负类的正类样本数。

 这里的positive negative可以对应医院检查的阳性/阴性去理解,假负类就是本来人家是正类,你给人家预测成负类了,所以这个是负类不是真的,是假的,所以叫假负类,就比如你要检测别人是否患病,正类就是患病了,但是实际上人家患病了,预测成没患病,这个就是假的没患病,没给人家检测出来,是大问题。

2.准确率(Accuracy)

准确率是分类正确的样本数占总样本数的比例。它是最直观的性能指标。计算公式为:

像正的被预测成正的,负的被预测成负的,这就叫预测正确,分类正确,所以准确率就是这样,当然也可以写的正式一点

3.召回率(Recall)

        做机器学习的,肯定听过召回率,但是光听这个名字,别人谁能知道这是啥意思,所以要介绍它的另一个名字 <查全率>

        查找全面性的比率,强调的是模型识别目标类别的完整性。也就是说,它衡量的是在所有真实正类样本中,有多少被模型正确地识别出来了。

        英文是recall,我也不懂外国人怎么理解这个recall,如果直译,我是真的猜不透,除非看定义,看了也忘。所以用查全率去记忆,我举例子说:

1. 金融欺诈检测

在金融行业,检测欺诈行为是非常关键的任务。假设有一个模型用来识别信用卡交易中的欺诈行为。

  • 数据集:假设有1000次信用卡交易,其中有50次是欺诈交易。
  • 模型预测:模型成功识别出了45次欺诈交易,但漏掉了5次。
  • 查全率:查全率为
### 准确率精确召回率F1值的定义 #### 1. 准确率 (Accuracy) 准确率是指模型预测正确的样本数占总样本数的比例。其计算公式如下: \[ \text{Accuracy} = \frac{\text{TP} + \text{TN}}{\text{TP} + \text{FP} + \text{FN} + \text{TN}} \] 其中,TP表示真阳性(True Positive),TN表示真阴性(True Negative)。这表明准确率衡量的是整体分类效果的好坏[^1]。 #### 2. 精确 (Precision) 精确指的是在所有被模型预测为正类的样本中,实际为正类的样本比例。其计算公式如下: \[ \text{Precision} = \frac{\text{TP}}{\text{TP} + \text{FP}} \] 这意味着精确关注于减少误报的情况,即降低假阳性的数量。 #### 3. 召回率 (Recall) 召回率也称为灵敏度或真正类(True Positive Rate, TPR),它衡量的是在所有实际为正类的样本中,被正确预测为正类的比例。其计算公式如下: \[ \text{Recall} = \frac{\text{TP}}{\text{TP} + \text{FN}} \] 召回率主要关注漏报的情况,即尽可能多地找出所有的正类样本。 #### 4. F1 值 (F1-Score) F1值是精确召回率的调和平均数,用于平衡两者之间的关系。其计算公式如下: \[ \text{F1-Score} = 2 \cdot \frac{\text{Precision} \cdot \text{Recall}}{\text{Precision} + \text{Recall}} \] 当精确召回率都很重要时,通常会使用F1值作为评估标准。 --- ### ROC 曲线与 AUC 的概念 除了上述指标外,ROC曲线也是常用的性能评估工具之一。ROC曲线通过绘制不同阈值下的真正类(TPR)和伪正类(FPR)来展示模型的表现。理想情况下,ROC曲线应该靠近左上角,即TPR接近1而FPR接近0[^3]。 以下是ROC曲线的一个简单示意图: ```plaintext | | * | * * | * * | * * | * * | * * | * * |*_______________________________> False Positive Rate (FPR) ``` 横轴代表伪正类(FPR),纵轴代表真正类(TPR)。AUC(Area Under Curve)则指ROC曲线下方的面积,范围从0到1,数值越大表示模型区分能力越强。 --- ### 关系总结 - **准确率**适用于数据分布较为均衡的情况下; - **精确**更注重减少错误标记为正类的情况; - **召回率**强调找到更多的正类实例; - **F1值**则是两者的权衡,尤其适合处理类别不平衡的数据集。 这些指标各有侧重,在具体应用中需根据业务需求选择合适的评价方法。 ---
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值