Precision, Recall, F1, ROC, AUC

分类任务评估指标

以分类任务虚假新闻检测(Fake news detection)为例讲解几个评估指标

fake news detection 可看做二元分类任务,其四个经典的评估标准有:

  • True Positive (TP): when predicted fake news pieces are actually annotated as
    fake news;(被检测为fake news 且真的是fake news 的实例)
  • True Negative (TN): when predicted true news pieces are actually annotated as
    true news;(被检测为true news 且真的是true news 的实例)
  • False Negative (FN): when predicted true news pieces are actually annotated as
    fake news;(被检测为true news 但实际上是fake news 的实例)
  • False Positive (FP): when predicted fake news pieces are actually annotated as true
    news.(被检测为fake news 但实际上是true news 的实例)

[外链图片转存失败(img-7F05kRNx-1568375284456)(pic/1568374910300.png)]

精确率(Precision):被检测为fake news 的实例中,真的是fake news 的实例的比率。
Precision=1 时代表检测结果完全正确。
(精确率的一般解释:针对模型判断出的所有正例(TP+FP)而言,其中真正例(TP)
占的比例.)

召回率(Recall): 被正确检测为fake news 的实例占所有fake news 实例的比率。
Recall=1 时代表所有fake news 都被检测出来了。
(召回率的一般解释:针对数据集中的所有正例(TP+FN)而言,模型正确判断出的
正例(TP)的比例.)

召回率针对的是数据集中的所有正例,精确率针对的是模型判断出的所有正例

F1 值是精确值和召回率的调和均值。F1=2PR/(P+R)
Accuracy 是检测正确的样本数与总样本数之比。

还可以使用ROC 曲线与AUC 值做评估
ROC(Receiver Operating Characteristic),其主要分析工具是一个画在二维平
面上的曲线ROC curve。横坐标是FPR(false positive rate),纵坐标是TPR(true
positive rate)。分类结果可映射成一个点。
TPR:在所有实际为Positive 的样本中,被正确地判断为Positive 的比率(与Recall
相同)。TPR=TP/(TP+FN)
FPR:在所有实际为Negative 的样本中,被错误地判断为Positive 的比率。
FPR=FP/(FP+TN)。
可见应该是TPR 越高越好,FPR 越低越好;

如果分类器只会将样本分类为阳性,那么TPR=1,FPR=1,分类效果不好。
如果分类器只会将样本分类为阴性,那么TPR=0,FPR=0,分类效果不好。
在(0,0)于(1,1)之间画一条直线,位于直线上方的点则是TPR 高,FPR 低,
分类效果较好,且越靠近左上角越好;位于直线下方的点则是TPR 低,FPR 高,
分类效果较差。
ROC 曲线:将阈值设置从0 遍历到1,将得到的分类结果点连接起来即得到ROC
曲线。

AUC(Area Under the Curve)值为ROC 曲线所覆盖的区域面积,显然,AUC
越大,分类器分类效果越好。
AUC = 1,是分类完全准确

  • 0.5 < AUC < 1,AUC 越大,分类效果较好,有预测价值。
  • AUC = 0.5,跟随机分类一样,模型没有预测价值。
  • AUC < 0.5,比随机分类还差;但只要将分类结果调转,则优于随机分类。

AUC 常用于不平衡的分类问题上,因此适用于fake news classification

Fake news detection是二元分类问题,而在多标签分类任务中,需要对每个“类”计算F1,把所有类的F1合并起来考虑。合并方式有两种:

1、Micro-average Method

微平均(Micro-averaging)是对数据集中的每一个示例不分类别进行统计建立全局混淆矩阵,然后计算相应的指标。

简而言之:直接计算所有类别的指标。

2、Macro-average Method

宏平均(Macro-averaging)是指所有类别的每一个统计指标值的算数平均值,也就是宏精确率(Macro-Precision),宏召回率(Macro-Recall),宏F值(Macro-F Score)

简而言之:每个类单独计算指标,然后取平均。

Macro-averaging赋予每个类相同的权重,然而Micro-averaging赋予每个样本决策相同的权重。在微平均评估指标中,样本数多的类别主导着样本数少的类。因而在测试数据集上,度量分类器对大类判别的有效性应该选择微平均,而度量分类器对小类判别的有效性则应该选择宏平均。

参考:https://zhuanlan.zhihu.com/p/30953081

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值