二分类任务评价指标（上）

最新推荐文章于 2024-08-23 15:26:03 发布

zenRRan

最新推荐文章于 2024-08-23 15:26:03 发布

阅读量433

点赞数

原文链接：https://mp.weixin.qq.com/s?__biz=MzI3ODgwODA2MA==&mid=2247516466&idx=5&sn=51e787facde9c404c4fbabe914f50762&chksm=eb5395a1dc241cb795775d147708f83fc31529d1051ed904a4bda5506a7f327653f92ee362ee&scene=126&sessionid=0

版权

每天给你送来NLP技术干货！

来自：AI算法小喵

点击这里进群—>加入NLP交流群

1. 评价指标

在对比不同模型时，我们需要在测试集上用评价指标去对比模型的泛化能力。

当然不同的评价指标会有不同的结果，模型的“好”与“差”是相对的。可能在某个指标下，模型A的效果优于模型B；但在另一个指标下，模型B的效果却优于模型A。

我们需要全面了解一个任务的评价指标体系，然后根据具体的业务目标/任务需求去选择相应的评价指标，继而选出符合业务目标/任务需求的好模型。

2. 二分类任务评价指标之精度、错误率

2.1 精度、错误率

在分类任务中，acc（精度、准确率）、error_rate(错误率)是最常用的性能评价指标。

2.1.1 acc

具体地，acc 的定义如下：

其中、分别为样本的真实类别与模型对其的预测类别，为总样本量。即acc是分类正确的样本数占总样本数的比例。

2.2.2 error_rate

error_rate（错误率）显然和精度是一对互补量，即有:

具体地，error_rate 的定义如下：

即分类错误的样本数占总样本数的比例。

2.2 二分类任务

将样本归类为两个互斥类别的其中一个的分类任务即为二分类任务。二分类任务非常常见，比如工业生产中机器是否发生故障、信息检索/web搜索中信息是否是用户感兴趣的、接到的电话是否为诈骗电话、接收的邮件是否为垃圾邮件、用户对于商品/新闻的评论所体现出的情感是正面的还是负面的、图像分类中猫狗二分类、核酸检测中样本是阳还是阴...