也许是由于上学的时候一直搞序列标注任务,多分类任务又可以简化为简单的二分类任务,所以一直认为PRF值很简单,没啥好看的。然鹅,细看下来竟有点晦涩难懂,马篇博留个念咯~
前言
PRF值分别表示准确率(Precision)、召回率(Recall)和F1值(F1-score),有机器学习基础的小伙伴应该比较熟悉。
根据标题,先区别一下“多分类”与“多标签”:
多分类:表示分类任务中有多个类别,但是对于每个样本有且仅有一个标签,例如一张动物图片,它只可能是猫,狗,虎等中的一种标签(二分类特指分类任务中只有两个类别)
多标签:一个样本可以有多个标签。例如文本分类中,一个文本可以是宗教相关,也可以是新闻相关,所以它就可以有两个标签
此处只介绍多分类任务的评价指标~
混淆矩阵与PRF值
1. 混淆矩阵
混淆矩阵是数据科学和机器学习中经常使用的用来总结分类模型预测结果的表,用n行n列的矩阵来表示,将数据集中的记录按照真实的类别和预测的类别两个标准进行汇总。以二分类任务为例,混淆矩阵的结构如下:
混淆矩阵
预测
真(正)
假(负)
实际
真(正)
TP
FN
假(负)
FP
TN
其中:
TP——将正类预测为正类的个数
FN——将正类预测为负类的个数
FP——将负类预测为正类的个数
TN——将负类预测为负类的个数
2. 传统的PRF值公式<