多类别分类中Micro-averaging与Macro-averaging的区别
The difference between the Micro averaging evaluation metrics and the Macro averaging evaluation metrics in Multiclass classification
背景
某位小朋友最近在复现一篇论文的实验时,遇到了一些关于Micro(微观)和Macro (宏观)评价指标之间的困惑,之前自己对于这些指标只是拿来主义,并没有理解与体会,随在这位小朋友的帮助下,加深了对于评价指标的理解,以此记录。
评价指标: Precision、Recall、F-score
以一个二分类任务为例:
假设输入是 x x x,其对应的真实标签(ground truth label)是 y y y,而某二分类分类器预测 x x x对应的标签是 y p r e d i c t i o n y^{prediction} yprediction。 { y , y p r e d i c t i o n } ∈ { 0 , 1 } \{y, y^{prediction}\}\in \{0,1\} { y,yprediction}∈{ 0,1}。
由此,可将此预测结果,根据真实标签 y y y和分类器预测标签 y p r e d i c t i o n y^{prediction} yprediction的不同,划分为:
(1) 真正例(True Positive, TP):真实类别为正例,预测类别为正例;
(2) 假正例(False Positive, FP):真实类别为负例,预测类别为正例;
(3) 假负例(False Negative, FN):真实类别为正例,预测类别为负例;
(4) 真负例(True Negative, TN):真实类别为负例,预测类别为负例。
此四类之间的关系,可由混淆矩阵(Confusion Matrix)表示:
真实类别 | 预测类别 | |
---|---|---|
正例 | 反例 | |
正例 | TP | FN |
反例 | FP | TN |
则:
- 查准率 Precision :P = T P T P + F P \frac{TP}{TP+FP} TP+FPTP
反映出模型对于真正例查的准不准,即预测的结果中,预测到的正例占总体预测结果的比例;- 查全率 Recall :R = T P T P + F N \frac{TP}{TP+FN} T