机器学习——精确率(精度)、召回率、漏检率的计算方法

本文探讨了在信息检索和机器学习中精确率与召回率的概念,通过具体案例阐述了如何计算这两个指标,并解释了它们在评估算法性能时的重要性。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

两组数据,其中一组叫上部,另一组叫下部。上部249个数据,下部499个数据。上部中每一个都可以在下部中找到与它匹配的,关系是一对一,下部有一些数据是多余的。我现在设计实验,返回249组数据,每组:有前一,前五,前十,前十五四种情况。只看前一的,有173组正确。只看前五,有221个正确。只看前十,有229个正确。只看前十五,有233个正确的。现在要统计它们的精度,召回率,漏检率。

注释:其实这三个名词儿就已经体现出它这个东西了,准确率那肯定就是都是对的,就是检测出来都是对的那些数量总数比;精确就是在它检测出来的数量里,确实是检测对了那些数量和检测出来的数量比。

 

 

 

 

在信息检索领域,精确率和召回率又被称为查准率查全率

查准率=检索出的相关信息量 / 检索出的信息总量
查全率=检索出的相关信息量 / 系统中的相关信息总量

二.举个栗子
 

假设我们手上有60个正样本,40个负样本,我们要找出所有的正样本,系统查找出50个,其中只有40个是真正的正样本,计算上述各指标。

 

  • TP: 将正类预测为正类数 40
  • FN: 将正类预测为负类数 20
  • FP: 将负类预测为正类数 10
  • TN: 将负类预测为负类数 30


准确率(accuracy) = 预测对的/所有 = (TP+TN)/(TP+FN+FP+TN) = 70%
精确率(precision) = TP/(TP+FP) = 80%
召回率(recall) = TP/(TP+FN) = 2/3

<think>好的,用户想了解机器学习中的精确度和召回率的区别及计算方法。首先,我需要回忆这两个概念的基本定义。精确度,也就是精确,通常是指模型预测为正类的样本中,真实为正类的比例。而召回率则是真实为正类的样本中被正确预测出来的比例。这两个指标在分类问题中非常重要,尤其是在不平衡数据集中。 接下来,我要确认它们的计算公式。根据引用的内容,精确度应该是真正例(TP)除以真正例加上假正例(FP),也就是$Precision = \frac{TP}{TP + FP}$。召回率则是真正例除以真正例加上假反例(FN),即$Recall = \frac{TP}{TP + FN}$。需要确保公式的LaTeX格式正确,使用$...$包裹。 然后,要区分它们的应用场景。比如,在医疗诊断中,高召回率更重要,因为需要尽可能找出所有患病者;而在垃圾邮件检测中,高精确可能更重要,避免将正常邮件误判为垃圾邮件。这部分需要结合例子说明,让用户更容易理解。 用户可能还关心两者的权衡,比如F1分数,这是精确召回率的调和平均数。根据引用[2],F1 score的计算公式是$F1 = 2 \times \frac{Precision \times Recall}{Precision + Recall}$。需要解释为什么调和平均更适合这种情况,因为它惩罚极端值,使得两者都比较平衡。 此外,需要检查是否有常见的误区。比如,准确(Accuracy)和精确(Precision)的区别,避免用户混淆这两个概念。引用[3]提到准确是检测正确的总数除以总样本数,而精确是检测为正类中正确的比例。这部分要明确区分。 最后,生成相关问题时要围绕用户可能进一步想了解的内容,比如如何选择指标、实际应用案例、如何提高精确召回率的方法,以及F1分数的具体应用场景。确保问题覆盖用户可能的需求,并引导他们深入理解。</think>### 精确度与召回率的区别及计算方法 #### 1. 核心定义 - **精确度(Precision)**:模型预测为正类的样本中,**实际为正类的比例**,计算公式为: $$Precision = \frac{TP}{TP + FP}$$ 其中,$TP$(True Positive)是正确预测的正样本数,$FP$(False Positive)是错误预测的正样本数[^3]。 - **召回率(Recall)**:实际为正类的样本中,**被正确预测为正类的比例**,计算公式为: $$Recall = \frac{TP}{TP + FN}$$ 其中,$FN$(False Negative)是错误预测为负样本的正样本数[^1]。 #### 2. 区别与联系 | 指标 | 关注点 | 适用场景 | 数学表达 | |-----------|---------------------|----------------------------|--------------------| | 精确度 | 预测结果的准确性 | 注重减少误报(如垃圾邮件检测) | $TP/(TP+FP)$ | | 召回率 | 正样本的覆盖程度 | 注重减少漏检(如疾病筛查) | $TP/(TP+FN)$ [^1] | **示例**: 在癌症检测中,若召回率低,意味着大量患者未被识别(漏检风险高);若精确度低,意味着健康人被误诊为癌症(误报风险高)。 #### 3. 综合指标:F1 Score 当需要平衡精确度与召回率时,使用**F1 Score**(谐波平均值): $$F1 = 2 \times \frac{Precision \times Recall}{Precision + Recall}$$ 该指标更偏向于较小的值,避免单一指标过高而另一项过低的问题[^2]。 ---
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

程序猿的探索之路

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值