常用多分类评价指标及计算

最新推荐文章于 2024-07-17 11:33:21 发布

pipibla

最新推荐文章于 2024-07-17 11:33:21 发布

阅读量3.8k

点赞数 3

文章标签： sklearn 机器学习 python

本文链接：https://blog.csdn.net/qq_44837312/article/details/130640721

版权

多分类问题中常用的评价指标。

1.WA（weighted accuracy）加权准确率

2.UAR（unweighted average recall）未加权平均召回率

1.WA（weighted accuracy）加权准确率

在多分类问题中，加权准确率（Weighted Accuracy）是一种考虑每个类别样本数量的准确率计算方式。对于样本不均衡的情况，该方式比较适用。其计算方式是将每个类别的准确率乘以该类别在总样本中的比例（权重），然后求和。

其实就是我们日常跑代码出来的acc

计算公式如下：

$WA = \frac{\sum (TP_i) }{\sum (TP_i + FP_i + FN_i)}$

其中，TP_i 是第 i 类的真正例数量，FP_i 是第 i 类的假正例数量，FN_i 是第 i 类的假反例数量。Σ 表示对所有类别求和。

2.UAR（unweighted average recall）未加权平均召回率

是一种性能评估指标，主要用于多分类问题。它表示各类别的平均召回率（Recall），在计算时，不对各类别进行加权。对于每个类别，召回率是该类别中真正被正确预测的样本数与该类别中所有样本数的比值。

UAR在评估一个分类器时，对每个类别都给予相同的重要性，而不考虑各类别的样本数量。这使得UAR在处理不平衡数据集时具有一定的优势，因为它不会受到数量较多的类别的影响。

计算公式如下：

$UAR = \frac{1}{N}* \sum (Recall_i)$

其中，Recall_i 是第 i 类的召回率，N 是类别的总数。

3.F1分数

F1分数是精确率（Precision）和召回率（Recall）的调和平均值。在多分类问题中，通常会计算每个类别的F1分数，然后取平均值作为总体的F1分数。平均方法可以是简单的算术平均（Macro-F1）（常用），也可以是根据每个类别的样本数量进行加权的平均（Weighted-F1）。

计算公式如下：

$F1 = \frac{2 * Precision * Recall }{(Precision + Recall)}$

4.使用sklearn进行计算

from sklearn.metrics import classification_report

使用👆导入的包，模型输出预测值y_pred和真实值y_test得到report如下：

report = classification_report(y_test, y_pred)

              precision    recall  f1-score   support

           0       0.89      0.80      0.84        10
           1       0.60      0.75      0.67         8
           2       0.92      0.85      0.88        13

    accuracy                           0.81        31
   macro avg       0.80      0.80      0.80        31
weighted avg       0.83      0.81      0.82        31

"macro avg"行表示，对于精度（precision），召回率（recall）和F1分数（f1-score），它们的未加权平均值分别是0.80、0.80和0.80。

"weighted avg"行表示，对于精度（precision），召回率（recall）和F1分数（f1-score），它们的加权平均值分别是0.83、0.81和0.82。加权平均是根据每个类别的样本数进行加权的，所以在这个案例中，类别2（有13个样本）的影响力大于类别0（10个样本）和类别1（8个样本）。

accuracy，可以视作每个类别的权重都一样的加权准确率。