通俗解释查准率和查全率的区别

在这里插入图片描述
还记得自己在牛客刷一道题,发现一直傻傻分不清楚查准率(Precision)和查全率(Recall)。
在不同书上的翻译不同,也有人把Precision和Recall称为精确率和召回率。

那么这两者到底有什么区别呢?

通俗一点来说,现在我要从瓜农那里买瓜,假设瓜农卖300个瓜,其中150个是好瓜,150个是坏瓜。

我现在并不差钱,因此我决定从瓜农那里买下所有的好西瓜。 作为顾客,我当然想吃又甜又新鲜的西瓜。由于不能一个一个剖开来尝——防止瓜农打我,我只能评以往的经验来挑出所有的好西瓜。
通过听声音,观察颜色,花纹…来猜我的西瓜是好是坏。这个猜的过程就是预测。

好了,我现在挑了半天,把我认为比较好的西瓜都找出来了——很可惜,我觉得这300个西瓜里只有50个好西瓜,并对瓜农表示了嫌弃(注意:这50个好西瓜可能并不是真正好西瓜的个数)

那么怎么衡量我挑西瓜的功底呢?(算法的好坏)

首先明确,在我的认知里,我挑出的这50个西瓜就是好西瓜,事实上50 = TP+FP,这个TP和FP是什么我们一会儿再讲。

我挑出的50个西瓜里,到底有多少是真正的好西瓜——这就是查准率。比如有30个,那么我的查准率就是3/5 = 0.6,看起来好像不赖嘛。(TP/TP+FP)

但是要注意,我在之前可是夸下海口,要挑出所有的好西瓜,所以光看我这50个里有多少好西瓜还不行!万一人家瓜农那里剩下的250个都是好瓜怎么办??
这就要用到查全率了

当然,我还有 另外一种途径来判断,那就是瓜农的150个瓜里,有多少个好瓜被我挑出来了,那么就是30/(30+120) = 30/150 = 0.2.(TP/TP +FN)

天啊,看起来好像有点丢人,这说明,我挑瓜的水平确实不怎么样,竟然有120个好西瓜都被我当成坏瓜了。

你可能已经注意到了我刚才反复用了几个奇怪的字母,T、P、F、N,这是什么东西呢?

P(Positive)表示我目前预测这个西瓜是好西瓜。
N(Negative)表示我目前预测这个西瓜是坏西瓜。

当然了,我的经验也不是次次都灵,所以我的预测中很有可能会出现偏差,因此还要引入两个符号——T和F。

T(True)表示我预测对了
F(False)表示我预测错了

细心的同学可能就发现了,那我有可能把好瓜猜成坏瓜,也有可能我猜的好瓜它就是好瓜… …总之,我的猜测过程有四种情况发生。

PN
TTPTN
FFPFN

很简单

TP表示我正确的预测了一个瓜为好瓜——即我猜这个西瓜它是好西瓜,实际上它就是好西瓜,我猜对了
TN表示我正确的预测了一个瓜为坏西瓜——我猜这个西瓜它是坏西瓜,实际上它就是坏西瓜,我也猜对了

你可能发现了,这两种情况表示我猜对了。

FP表示我错误的预测一个瓜为好瓜——我把坏人当好人了
FN表示我错误的预测一个瓜为坏西瓜——我把好人当坏人了

查准率(precision):算法挑出来的西瓜中有多少比例是好西瓜; 查全率(recall):所有的好西瓜中有多少比例被算法跳了出来。

在这里插入图片描述
再来看看刚才的那个例子,其实在那个例子里TP = 30,表示我所预测的好瓜里,有30个被我预测正确了。
FP = 20,即我预测的50个好瓜里,有20个其实实际是坏西瓜,但是我却把它当成了好瓜。
FN = 120,即本来有150个好西瓜,我认为其中30个是好瓜,把他们挑走了,这相当于剩下的120本身是好瓜,我却误会了它们。

再来看看牛客这道题,现在可疑笔记其实就是我们想挑的“好瓜”,或许你要说可疑怎么是好瓜呢,无论如何,你就把他当成我们希望挑出的东西就行了。

我们拦截的笔记,一定是我们认为的“可疑笔记”,有多少是真的可疑笔记。这个问题其实就相当于,我们挑的瓜里,有多少是真的好瓜?

答案不言自明,应该用Precision(查准率)来衡量。

在这里插入图片描述
下次有时间,我们再看看精度(accuracy)和错误率(error rate)~
References:
[1] https://blog.csdn.net/qq_27871973/article/details/81065074
[2] 周志华.《机器学习》

  • 12
    点赞
  • 21
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
### 回答1: 很高兴回答您的问题,精度和召回率在模型评估中是重要的指标。精度指的是模型预测的正确率,也就是模型预测出的正确结果,占所有预测结果的比例,它反映了模型预测结果的准确性。召回率指的是模型预测出的正确结果,占所有真实结果的比例,它反映了模型预测结果的完整性。 ### 回答2: 精度和召回率是评估分类模型性能的两个重要指标。 精度是指分类模型正确预测的样本数占总预测样本数的比例。简而言之,精度衡量了模型对正确预测的准确程度。例如,假设一个二分类模型预测了100个样本,其中80个样本被正确预测为正类,20个样本被正确预测为负类,那么模型的精度为80%。精度越高,表示模型的预测结果越准确。 召回率是指分类模型正确预测为正类的样本数占实际正样本数的比例。简单来说,召回率衡量了模型对真实正类样本的覆盖能力。假设一个二分类模型在测试数据中存在100个正类样本,其中60个被正确预测为正类,剩下40个被错误预测为负类,那么模型的召回率为60%。召回率越高,表示模型对正类样本的覆盖能力越强。 总结起来,精度关注的是模型在所有预测样本中的准确程度,而召回率关注的是模型对真实正类样本的覆盖能力。在实际应用中,精度和召回率往往是一对矛盾指标,在调整模型时需要权衡二者的取值。如果对于一个任务,我们更加关注模型的准确性,那么应该更加重视精度;如果更在意模型对于真实正类样本的识别能力,那么应该更加关注召回率。 ### 回答3: 精度和召回率是两个关于评估分类模型性能的指标。通俗来说,精度指的是模型预测正确的概率,召回率则是指模型正确识别出的正样本占总正样本的比例。 以一个实际例子进行解释。假设有一位医生想要使用一个肿瘤检测分类器来判断患者是否患有恶性肿瘤。这个分类器将根据患者的一些特征进行预测,结果有两类:是(患有恶性肿瘤)和否(未患有恶性肿瘤)。 精度简单来说是指医生在进行判断时,正确预测的结果所占的比例。例如,在100个患者中,分类器预测有恶性肿瘤的有80个,其中有70个是正确的,那么精度就是70/80=87.5%。意味着医生判断有恶性肿瘤的患者中有87.5%应该是确实患有恶性肿瘤的。 召回率则是指在所有真实患有恶性肿瘤的患者中,分类器正确检测出的比例。假设分类器正确识别出了80个有恶性肿瘤的患者中的70个,而实际上一共有90个患者患有恶性肿瘤,那么召回率就是70/90=77.8%。这意味着分类器能够正确识别出77.8%的恶性肿瘤患者。 综上所述,精度和召回率是用来评估分类模型性能的两个重要指标。精度反映了分类器预测结果的准确性,而召回率则反映了分类器对于正样本的查全率。在实际应用中,我们需要根据具体情况来选择和优化这两个指标,以平衡分类器对于不同错误类型的处理需求。
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值