Precision, Recall, F1, ROC, AUC

最新推荐文章于 2023-02-22 21:41:35 发布

正则化

最新推荐文章于 2023-02-22 21:41:35 发布

阅读量875

点赞数

分类专栏：深度学习笔记

本文链接：https://blog.csdn.net/weixin_41519463/article/details/100809487

版权

深度学习笔记专栏收录该内容

47 篇文章 10 订阅

订阅专栏

分类任务评估指标

以分类任务虚假新闻检测（Fake news detection）为例讲解几个评估指标

fake news detection 可看做二元分类任务，其四个经典的评估标准有：

True Positive (TP): when predicted fake news pieces are actually annotated as
fake news;（被检测为fake news 且真的是fake news 的实例）
True Negative (TN): when predicted true news pieces are actually annotated as
true news;（被检测为true news 且真的是true news 的实例）
False Negative (FN): when predicted true news pieces are actually annotated as
fake news;（被检测为true news 但实际上是fake news 的实例）
False Positive (FP): when predicted fake news pieces are actually annotated as true
news.（被检测为fake news 但实际上是true news 的实例）

[外链图片转存失败(img-7F05kRNx-1568375284456)(pic/1568374910300.png)]

精确率(Precision):被检测为fake news 的实例中，真的是fake news 的实例的比率。
Precision=1 时代表检测结果完全正确。
（精确率的一般解释：针对模型判断出的所有正例(TP+FP)而言,其中真正例(TP)
占的比例.）

召回率(Recall): 被正确检测为fake news 的实例占所有fake news 实例的比率。
Recall=1 时代表所有fake news 都被检测出来了。
（召回率的一般解释：针对数据集中的所有正例(TP+FN)而言,模型正确判断出的
正例(TP)的比例.）

召回率针对的是数据集中的所有正例,精确率针对的是模型判断出的所有正例

F1 值是精确值和召回率的调和均值。F1=2PR/(P+R)
Accuracy 是检测正确的样本数与总样本数之比。

还可以使用ROC 曲线与AUC 值做评估
ROC（Receiver Operating Characteristic），其主要分析工具是一个画在二维平
面上的曲线ROC curve。横坐标是FPR(false positive rate)，纵坐标是TPR(true
positive rate)。分类结果可映射成一个点。
TPR：在所有实际为Positive 的样本中，被正确地判断为Positive 的比率（与Recall
相同）。TPR=TP/(TP+FN)
FPR：在所有实际为Negative 的样本中，被错误地判断为Positive 的比率。
FPR=FP/(FP+TN)。
可见应该是TPR 越高越好，FPR 越低越好；

如果分类器只会将样本分类为阳性，那么TPR=1，FPR=1，分类效果不好。
如果分类器只会将样本分类为阴性，那么TPR=0，FPR=0，分类效果不好。
在（0,0）于（1,1）之间画一条直线，位于直线上方的点则是TPR 高，FPR 低，
分类效果较好，且越靠近左上角越好；位于直线下方的点则是TPR 低，FPR 高，
分类效果较差。
ROC 曲线：将阈值设置从0 遍历到1，将得到的分类结果点连接起来即得到ROC
曲线。

AUC（Area Under the Curve）值为ROC 曲线所覆盖的区域面积，显然，AUC
越大，分类器分类效果越好。
AUC = 1，是分类完全准确

0.5 < AUC < 1，AUC 越大，分类效果较好，有预测价值。
AUC = 0.5，跟随机分类一样，模型没有预测价值。
AUC < 0.5，比随机分类还差；但只要将分类结果调转，则优于随机分类。

AUC 常用于不平衡的分类问题上，因此适用于fake news classification

Fake news detection是二元分类问题，而在多标签分类任务中，需要对每个“类”计算F1，把所有类的F1合并起来考虑。合并方式有两种：

1、Micro-average Method

微平均（Micro-averaging）是对数据集中的每一个示例不分类别进行统计建立全局混淆矩阵，然后计算相应的指标。

简而言之：直接计算所有类别的指标。

2、Macro-average Method

宏平均（Macro-averaging）是指所有类别的每一个统计指标值的算数平均值，也就是宏精确率（Macro-Precision），宏召回率（Macro-Recall），宏F值（Macro-F Score）

简而言之：每个类单独计算指标，然后取平均。

Macro-averaging赋予每个类相同的权重，然而Micro-averaging赋予每个样本决策相同的权重。在微平均评估指标中，样本数多的类别主导着样本数少的类。因而在测试数据集上，度量分类器对大类判别的有效性应该选择微平均，而度量分类器对小类判别的有效性则应该选择宏平均。

参考：https://zhuanlan.zhihu.com/p/30953081

正则化

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Precision, Recall, F1, ROC, AUC

分类任务评估指标以分类任务虚假新闻检测（Fake news detection）为例讲解几个评估指标fake news detection 可看做二元分类任务，其四个经典的评估标准有：True Positive (TP): when predicted fake news pieces are actually annotated asfake news;（被检测为fake news 且...
复制链接

扫一扫