错误率与精度，查准率与查全率（详细解释，通俗易懂）

梦云澜

于 2024-06-07 21:26:16 发布

阅读量1.3k

点赞数 38

分类专栏：人工智能与机器学习文章标签：人工智能

本文链接：https://blog.csdn.net/qq_64411728/article/details/139534272

版权

人工智能与机器学习专栏收录该内容

9 篇文章 0 订阅

订阅专栏

小伙伴们在学习机器学习的时候这几个概念肯定是绕不开的，在这里就和小伙伴们用大白话分享一下这个东西~

1.错误率

我们在用机器学习做一些事情的时候，它毕竟不能保证百分之百正确嘛，这个是显而易见的，比如说，我有100个西瓜的照片，计算机识别出来了90个，那这个时候的错误率就是10%嘛，所以这个错误率很好理解，数学公式如下：

$E(f;D)=\frac{1}{m}\sum _{i=1}^{m}\mathbb{I}(f(x_{i})\neq y_{i})$

呀，咋公式这么复杂，别担心，其实很简单，咱们一个一个解释它里面各个字母的含义：

$f$ ：你可以认为是机器学习的一种判断规则，就是你给它一个西瓜的照片，它怎么判断的，相当于数学上的一个函数呗。

$D$ : 哎就是那100个西瓜的照片，一个数据集。

$m$ : 100个西瓜照片的100。

$\mathbb{I}(*)$ : 就相当于一个布尔函数，如果计算机识别出来是西瓜那不就和实际值不一样，那就记为1，一样就记为0，这样把所有的1加起来就是计算机识别错误的总个数啦，这里我们算的是识别错误的哦，小伙伴们可别想错嘞。

$f(x_{i})$ ：第 $i$ 张西瓜照片计算机识别的结果。

$y_{i}$ : 第 $i$ 张西瓜照片（我们这里只是举例方便，真实应该是识别正确就相等，并非两张照片相等）

怎么样不难吧，下面再说说精度。

2.精度

其实就是正确率，你看公式：

$acc(f;D)=\frac{1}{m}\sum _{i=1}^{m}\mathbb{I}(f(x_{i})= y_{i})$

$=1-E(f;D)$

你看，是吧，这个就不用解释了哈，和错误率的公式差不多。

3.查准率和查全率

这俩个得一起说，我们为什么要有查准率和查全率，不用细想，那肯定是上面那俩不够用了呗，还拿西瓜举例，假如说我现在有60个西瓜照片，40个橘子照片，那计算机识别的西瓜照片有70个，橘子识别有30个，那肯定中间有识别错误的，我画个表，看下表

你看，如果说我们想知道我识别出来是西瓜的里面有多少真的是西瓜，那是不是错误率和精度就不够解释了，那从这张表里面来看就是50除以(50+20)呗，这就是查准率。那我们换一个角度，我们想知道，全部的西瓜中有多少被识别出来是西瓜，那这时候是不是就是50除以(50+10)，这个就是查全率，其实都是字面意思就可以理解啦~

我们来看严谨的数学公式，先把上述的表给抽象一下：

怎么样，经过上述的例子这个表不太难理解叭~

然后我们的查准率 $P$ 和查全率 $R$ 的定义如下：

$P=\frac{TP}{TP+FP}$

$R=\frac{TP}{TP+FN}$

这里的公式也只是把上述例子中的数字给换成字母了哦，不难的~

4.查准率和查全率的关系

我们这里举的例子只有100个数据量，那我们有100万个呢？这时候想看查准率和查全率一定要全部识别完嘛？可不是哦，先说结论：一般来说，查准率高时，查全率往往就低；查全率高，查准率往往就低。这是为啥？如果我们想尽可能的把西瓜的照片尽可能识别出来，那肯定增加识别照片的数量呗，如果100个照片都选上，那所有的西瓜照片肯定也都在其中，但这样的话查准率就下去了，反之，我想选出西瓜照片的比例尽可能的高，那肯定提高计算计算机的识别规则，“提高识别的把握”，那肯定会有一些照片识别错误(这个也好理解，比如说你现在只做有把握的事儿，那其实有些事你也能做成，但你给漏掉了，就是这个意思)，那查全率就低了，我们来看一幅图