分类任务评估指标
以分类任务虚假新闻检测(Fake news detection)为例讲解几个评估指标
fake news detection 可看做二元分类任务,其四个经典的评估标准有:
- True Positive (TP): when predicted fake news pieces are actually annotated as
fake news;(被检测为fake news 且真的是fake news 的实例) - True Negative (TN): when predicted true news pieces are actually annotated as
true news;(被检测为true news 且真的是true news 的实例) - False Negative (FN): when predicted true news pieces are actually annotated as
fake news;(被检测为true news 但实际上是fake news 的实例) - False Positive (FP): when predicted fake news pieces are actually annotated as true
news.(被检测为fake news 但实际上是true news 的实例)
精确率(Precision):被检测为fake news 的实例中,真的是fake news 的实例的比率。
Precision=1 时代表检测结果完全正确。
(精确率的一般解释:针对模型判断出的所有正例(TP+FP)而言,其中真正例(TP)
占的比例.)
召回率(Recall): 被正确检测为fake news 的实例占所有fake news 实例的比率。
Recall=1 时代表所有fake news 都被检测出来了。
(召回率的一般解释:针对数据集中的所有正例(TP+FN)而言,模型正确判断出的
正例(TP)的比例.)
召回率针对的是数据集中的所有正例,精确率针对的是模型判断出的所有正例
F1 值是精确值和召回率的调和均值。F1=2PR/(P+R)
Accuracy 是检测正确的样本数与总样本数之比。
还可以使用ROC 曲线与AUC 值做评估
ROC(Receiver Operating Characteristic),其主要分析工具是一个画在二维平
面上的曲线ROC curve。横坐标是FPR(false positive rate),纵坐标是TPR(true
positive rate)。分类结果可映射成一个点。
TPR:在所有实际为Positive 的样本中,被正确地判断为Positive 的比率(与Recall
相同)。TPR=TP/(TP+FN)
FPR:在所有实际为Negative 的样本中,被错误地判断为Positive 的比率。
FPR=FP/(FP+TN)。
可见应该是TPR 越高越好,FPR 越低越好;
如果分类器只会将样本分类为阳性,那么TPR=1,FPR=1,分类效果不好。
如果分类器只会将样本分类为阴性,那么TPR=0,FPR=0,分类效果不好。
在(0,0)于(1,1)之间画一条直线,位于直线上方的点则是TPR 高,FPR 低,
分类效果较好,且越靠近左上角越好;位于直线下方的点则是TPR 低,FPR 高,
分类效果较差。
ROC 曲线:将阈值设置从0 遍历到1,将得到的分类结果点连接起来即得到ROC
曲线。
AUC(Area Under the Curve)值为ROC 曲线所覆盖的区域面积,显然,AUC
越大,分类器分类效果越好。
AUC = 1,是分类完全准确
- 0.5 < AUC < 1,AUC 越大,分类效果较好,有预测价值。
- AUC = 0.5,跟随机分类一样,模型没有预测价值。
- AUC < 0.5,比随机分类还差;但只要将分类结果调转,则优于随机分类。
AUC 常用于不平衡的分类问题上,因此适用于fake news classification
Fake news detection是二元分类问题,而在多标签分类任务中,需要对每个“类”计算F1,把所有类的F1合并起来考虑。合并方式有两种:
1、Micro-average Method
微平均(Micro-averaging)是对数据集中的每一个示例不分类别进行统计建立全局混淆矩阵,然后计算相应的指标。
简而言之:直接计算所有类别的指标。
2、Macro-average Method
宏平均(Macro-averaging)是指所有类别的每一个统计指标值的算数平均值,也就是宏精确率(Macro-Precision),宏召回率(Macro-Recall),宏F值(Macro-F Score)
简而言之:每个类单独计算指标,然后取平均。
Macro-averaging赋予每个类相同的权重,然而Micro-averaging赋予每个样本决策相同的权重。在微平均评估指标中,样本数多的类别主导着样本数少的类。因而在测试数据集上,度量分类器对大类判别的有效性应该选择微平均,而度量分类器对小类判别的有效性则应该选择宏平均。