#机器学习 Micro-F1和Macro-F1详解

置顶 Troye Jcan

已于 2022-04-12 23:36:23 修改

阅读量6.8w

点赞数 125

分类专栏：机器学习 Python 文章标签：机器学习数据分析

于 2020-04-26 22:22:16 首次发布

本文链接：https://blog.csdn.net/qq_43190189/article/details/105778058

版权

Python 同时被 2 个专栏收录

23 篇文章

订阅专栏

机器学习

3 篇文章

订阅专栏

micro-F1和macro-F1详解

2022.04.06 修改了二分类F1的表述错误，增加了macro和micro的权重倾向

2021.12.21 修改了图像，并将部分公式由图片转换为公式，修改了部分表述方式

摘要

F1-score：是统计学中用来衡量二分类模型精确度的一种指标，用于测量不均衡数据的精度。它同时兼顾了分类模型的精确率和召回率。F1-score可以看作是模型精确率和召回率的一种加权平均，它的最大值是1，最小值是0。

一般来说，对于二分类问题我们通常只计算正类的样本的F1-score，即将正类的F1当成整体F1，而不会去分别计算正类和负类。当然如果实验要求也可以分别计算两类的F1之后再使用micro或macro的方式得到整体的F1。我们多在多分类问题中才考虑计算不同类别的样本F1。

这里先简要介绍一下二分类的F1计算方法：

假设有如下的二分类结果：
在这里插入图片描述
根据上述结果我们可以得到一下结果：
$\ \ \ Precision= \frac{a}{a+c} \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ Recall= \frac{a}{a+b}$ $\frac{2}{\frac{1}{Recall}+\frac{1}{Precision}}= 2\frac{Recall×Precision}{Recall+Precision}$

在多分类问题中，如果要计算模型的F1-score，则有两种计算方式，分别为micro-F1和macro-F1。下面分别介绍两种计算方式的不同。

micro-F1：

取值范围：(0, 1)；
权重倾向：每一个样本的权重都相同；
适用环境：多分类不平衡，若数据极度不平衡会影响结果；
计算方式：
$计算总的Recall_m= \frac{TP_1+TP_2+TP_3}{TP_1+TP_2+TP_3+FN_1+FN_2+FN_3}$ $计算总的Precision_m= \frac{TP_1+TP_2+TP_3}{TP_1+TP_2+TP_3+FP_1+FP_2+FP_3}$ $2\frac{Recall_m×Precision_m}{Recall_m+Precision_m}$
TP_i 是指第 i 类的 True Positive 正类判定为正类;
FP_i 是指第 i 类的 False Positive 负类判定为正类;
FN_i 是指第 i 类的 FalseNegative 正类判定为负类;
TN_i 是指第 i 类的 True Negative 负类判定为负类。

假设现在有一下的三分类结果：
在这里插入图片描述
由此表我们可以得出：
$对第1类：FP_1=d+g；TP_1=a；FN_1=b+c；TN_1=e+f+h+i；$ $对第2类：FP_2=b+h；TP_2=e；FN_2=d+f； TN_2=a+c+g+i；$ $对第3类：FP_3=c+f； TP_3=i； FN_3=g+h；TN_3=a+b+d+e；$

对micro-F1来说，mirco的计算方式使将recall和precision合起来算，所以：

对于micro-Recall： $micro-Recall=\frac{TP_1+TP_2+TP_3}{TP_1+TP_2+TP_3+FN_1+FN_2+FN_3}$ 即三个类别的TP和FN相加为分母，TP为分子。由上式分析可知， $TP_1+TP_2+TP_3 =a+e+i$ $FN_1+FN_2+FN_3 =b+c+d+f+g+h$ （即除了TP之外的所有格），所以得到
$Recall_m=\frac{a+e+i}{a+e+i+b+c+d+f+g+h}$

对于micro-Precision：
$micro-Precision=\frac{TP_1+TP_2+TP_3}{TP_1+TP_2+TP_3+FP_1+FP_2+FP_3}$ 同理可得， $TP_1+TP_2+TP_3 =a+e+i$ $FP_1+FP_2+FP_3 =d+g+b+h+c+f$ （即除了TP之外的所有格），得到
$Precision_m=\frac{a+e+i}{a+e+i+d+g+b+h+c+f}=Recall_m$

然后，根据micro F1-score的计算方式可得： $2\frac{Recall_m×Precision_m}{Recall_m+Precision_m}=Recall_m=Precision_m$
而且，对于模型准确性Accuracy，定义为正确分类的样本在所有样本中的比例。所以准确性的公式
$\frac{a+e+i}{a+b+c+d+e+f+g+h+i}=micro-F1=Recall_m=Precision_m$
据此我们可以得出结论：若micro-F1=0.5，则模型准确率Acc=0.5，Precision和Recall均为0.5，但是！我们不能得出模型基本是靠猜的结论，因为若是三分类结果如下：
在这里插入图片描述 $\frac{a+e+i}{a+b+c+d+e+f+g+h+i}=micro-F1=Recall_m=Precision_m=0.5$

macro-F1：

取值范围：(0, 1)；
取值范围：每一类别的权重都相同；
适用环境：多分类问题，不受数据不平衡影响，容易受到识别性高（高recall、高precision）的类别影响；
计算方法：(以三分类来计算) $(1).\ 计算每个类别的F1-score_i=2\frac{Recall_i×Precision_i}{Recall_i+Precision_i}$ $(2).\ 计算macro-F1=\frac{F1-score_1+F1-score_2+F1-score_3}{3}$

其实macro-F1有两种计算方式，

1、先求macro-Recall和macro-Pecision，之后由这两个和求macro-F1；
2、对三个类别的F1-score直接求平均（即上述计算方法）。

在sklearn的包中，使用的是第二种方式。两种方式的使用争议一直存在，不过在“Training algorithms for linear text classifiers（ Lewis, David D., et al. “Training algorithms for linear text classifiers.” SIGIR. Vol. 96. 1996.）”中，作者指出，macro-F1是所有类中F1-score的平均值，即第二种方式才是macro-F1的计算方式，因此我们使用第二种计算方式进行说明。

我们对两种macro的方法进行简单分析，第一种方式对错误的分布不太敏感“详见论文（Opitz, Juri, and Sebastian Burst. “Macro F1 and Macro F1.” arXiv preprint arXiv:1911.03347 (2019)）”，这一点有点像micro-F1；而第二种方法则被上述论文作者推荐。

同样，我们对每一类的指标都进行分析：
$对第1类：FP_1=d+g；TP_1=a；FN_1=b+c；TN_1=e+f+h+i；$ $对第2类：FP_2=b+h；TP_2=e；FN_2=d+f； TN_2=a+c+g+i；$ $对第3类：FP_3=c+f； TP_3=i； FN_3=g+h；TN_3=a+b+d+e；$
$对第1类:Recall_1=\frac{TP_1}{TP_1+FN_1},Precision_1=\frac{TP_1}{TP_1+FP_1},F1-score_1=\frac{2TP_1}{2TP_1+FP_1+FN_1}$ $对第2类:Recall_2=\frac{TP_2}{TP_2+FN_2},Precision_2=\frac{TP_2}{TP_2+FP_2},F1-score_2=\frac{2TP_2}{2TP_2+FP_2+FN_2}$ $对第3类:Recall_31=\frac{TP_3}{TP_3+FN_3},Precision_3=\frac{TP_3}{TP_3+FP_3},F1-score_3=\frac{2TP_3}{2TP_3+FP_3+FN_3}$
将上述的值带入macro-F1中，得到：
$macro-F1=\frac{F1-score_1+F1-score_2+F1-score_3}{3}$ $\ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ =\frac{\frac{2TP_1}{2TP_1+FP_1+FN_1}+\frac{2TP_2}{2TP_2+FP_2+FN_2}+\frac{2TP_3}{2TP_3+FP_3+FN_3}}{3}$ $\ \ \ \ \ \ \ \ \ \ \ \ =\frac{\frac{2a}{2a+b+c+d+g}+\frac{2e}{2e+b+d+f+h}+\frac{2i}{2i+c+f+g+h}}{3}$
上式即为macro-F1的公式（算到这里我就没有继续化简了感觉没东西）

若使该值=0.5，也得不到有用的结论。

weighted-F1

除了micro-F1和macro-F1，还有weighted-F1，是一个将F1-score乘以该类的比例之后相加的结果，也可以看做是macro-F1的变体吧。例如：在这里插入图片描述

对上述表格，我们可得出每一类的precision、recall和F1-score：

在这里插入图片描述
所以，计算weighted-F1：
$weighted-F1=\frac{6×42.10\%+10×30.80\%+9×66.70\%}{4+6+3+1+2+0+1+2+6}=46.40\%$

同样，我们也可以算weighted-Precision和weighted-Recall：
$weighted-Precision=\frac{6×30.80\%+10×66.70\%+9×66.70\%}{25}=58.10\%$ $weighted-Recall=\frac{6×66.70\%+10×20.00\%+9×66.70\%}{25}=48.00\%$

其实从上面我们也可以看出来，
$weighted-F1≠2\frac{weighted-Precision×weighted-Recall}{weighted-Precision+weighted-Recall}≈52.57\%$
同理，参考macro的两种计算方式，一般以macro的计算方法为结果。

weighted-F1和macro-F1的区别在于：macro-F1对每一类都赋予了相同的权重，而weighted-F1则根据每一类的比例分别赋予不同的权重。

调参

关于scoring的使用：

进行网格调参时，构建GridSearchCV，一般二分类的评分标准为roc_auc，而多分类并不提供roc曲线面积的评分方式，所以在多分类时，我们可以用

grid_search = GridSearchCV(lg, n_jobs=-1, scoring='f1_weighted', param_grid=param_dist, cv=10, verbose=5)

等评分方式来进行调参，不同的评分方式对结果都会有影响。
还有更多的评分方式可以运行这两行代码获得：

import sklearn.metrics as sm
print(sorted(sm.SCORERS.keys()))

如果错误请及时联系我，以免产生误会。

参考：
https://towardsdatascience.com/multi-class-metrics-made-simple-part-i-precision-and-recall-9250280bddc2
https://towardsdatascience.com/multi-class-metrics-made-simple-part-ii-the-f1-score-ebe8b2c2ca1