真真假假，真假假真！一文读懂多类别的TP、FP、FN、TN；并理解准确率、精确率、召回率、F1分数计算公式

最新推荐文章于 2025-03-19 15:56:58 发布

郡执

最新推荐文章于 2025-03-19 15:56:58 发布

阅读量6.6k

点赞数 5

分类专栏：深度学习自学入门文章标签：人工智能机器学习算法

本文链接：https://blog.csdn.net/qq_43617906/article/details/132301273

版权

自学入门同时被 2 个专栏收录

23 篇文章

订阅专栏

深度学习

13 篇文章

订阅专栏

博客介绍了分类问题中的真假值及评价指标计算。在二分类中，有真真值、真假值等四种情况，可构造混淆矩阵；多分类可迁移二分类解释，为每个类别构建混淆矩阵。还阐述了单个类别及多类别分类问题中，如准确率、精确率等评价指标的计算方法，以及宏平均、微平均等综合计算方法。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

二分类真假值

在二元分类问题中，通常有两个类别，例如正类和负类。根据模型的预测和实际标签，可以将预测结果分成以下四种情况：

真真值 (True-True, TT)：
模型预测为正类，实际标签也为正类。这表示模型正确地将正例识别为正例。
真假值 (True-False, TF)：
模型预测为正类，但实际标签为负类。这表示模型错误地将负例错误地识别为正例。
假真值 (False-True, FT)：
模型预测为负类，但实际标签为正类。这表示模型错误地将正例错误地识别为负例。
假假值 (False-False, FF)：
模型预测为负类，实际标签也为负类。这表示模型正确地将负例识别为负例。

TP (True Positive) 表示真正例，即模型预测为正类，实际标签也为正类的数量；
FP (False Positive) 表示假正例，即模型预测为正类，但实际标签为负类的数量；
FN (False Negative) 表示假负例，即模型预测为负类，但实际标签为正类的数量；
TN (True Negative) 表示真负例，即模型预测为负类，实际标签也为负类的数量。

二分类构造混淆矩阵：

                   实际正类     实际负类
预测为正类 (预测真真值)    TP        FP
预测为负类 (预测假假值)    FN        TN

多分类真假值

读者可以通过二分类迁移至多分类的解释，但多类的数值需要具体到某一类别来计算

真正例为模型预测为A类，实际标签也为A类的数量
假正例为模型预测为A类，实际标签不是A类的数量
假负例为实际标签为A类，模型预测为不是A类的数量
真负例为实际标签不是A类，模型预测的也不是A类的数量

更为科学的解释为：
假设有 k 个类别（k ≥ 3），对于每一个类别 i，可以定义以下值：

TP (True Positive)：真正例
对于类别 i，TP 表示模型正确地将属于类别 i 的样本预测为类别 i。
FP (False Positive)：假正例
对于类别 i，FP 表示模型错误地将不属于类别 i 的样本预测为类别 i。
FN (False Negative)：假负例
对于类别 i，FN 表示模型错误地将属于类别 i 的样本预测为其他不是类别 i 的类别。
TN (True Negative)：真负例
对于类别 i，TN 表示模型正确地将不属于类别 i 的样本预测为不是类别 i。

对于每一个类别 i，都可以构建一个混淆矩阵。通常，在多分类问题中，我们关注的是每个类别的 TP、FP、FN 和 TN 值，然后可以根据这些值计算一些指标，比如精确率、召回率、F1 分数等，来评估模型的性能。
还会需要综合考虑各个类别的性能，例如宏平均（Macro-average）和微平均（Micro-average）。在这些情况下，会涉及到对多个混淆矩阵的综合考虑和计算。

评价指标的计算

单个类别进行计算准确率、精确率、召回率、F1分数

准确率（Accuracy）：
准确率表示模型正确预测的样本数占总样本数的比例。

$\text{Accuracy} = \frac{TP + TN}{TP + TN + FP + FN}$

精确率（Precision）：
精确率衡量了模型预测为正类的样本中有多少实际上是真正例。

$\text{Precision} = \frac{TP}{TP + FP}$

召回率（Recall），也称为敏感性或真正例率：
召回率衡量了实际为正类的样本中有多少被模型正确地预测为正类。

$\text{Recall} = \frac{TP}{TP + FN}$

F1 分数（F1-Score）：
F1 分数是精确率和召回率的调和平均，用于综合考虑模型的精确性和召回性能。

$\text{F1-Score} = \frac{2 \times \text{Precision} \times \text{Recall}}{\text{Precision} + \text{Recall}}$

宏平均（Macro-average）和微平均（Micro-average）是用于多类别分类问题中综合计算性能指标的两种方法。它们分别考虑了每个类别的性能，从而提供了全局的评估。以下是它们的计算公式：

假设有 k 个类别，对于每一个类别 i：

TPi (True Positives for class i)：类别 i 中正确预测为类别 i 的数量。
FPi (False Positives for class i)：类别 i 中错误预测为类别 i 的数量。
FNi (False Negatives for class i)：类别 i 中正确标签为类别 i，但被错误地预测为其他类别的数量。

宏平均（Macro-average）：
宏平均计算每个类别的指标（如精确率、召回率、F1 分数等），然后对所有类别的指标取平均。它平等地对待每个类别，不考虑类别的样本分布。
- 宏精确率（Macro-Precision）：
  $\text{Macro-Precision} = \frac{1}{k} \sum_{i=1}^{k} \frac{TP_i}{TP_i + FP_i}$
- 宏召回率（Macro-Recall）：
  $\text{Macro-Recall} = \frac{1}{k} \sum_{i=1}^{k} \frac{TP_i}{TP_i + FN_i}$
- 宏F1分数（Macro-F1 Score）：
  $\text{Macro-F1 Score} = \frac{1}{k} \sum_{i=1}^{k} \frac{2 \times \text{Macro-Precision} \times \text{Macro-Recall}}{\text{Macro-Precision} + \text{Macro-Recall}}$
微平均（Micro-average）：
微平均将所有类别的 TP、FP 和 FN 汇总，然后计算总体的指标。它更加关注样本数较多的类别，可以在类别不平衡时给出更准确的全局性能评估。
- 总体精确率（Micro-Precision）：
  $\text{Micro-Precision} = \frac{\sum_{i=1}^{k} TP_i}{\sum_{i=1}^{k} TP_i + \sum_{i=1}^{k} FP_i}$
- 总体召回率（Micro-Recall）：
  $\text{Micro-Recall} = \frac{\sum_{i=1}^{k} TP_i}{\sum_{i=1}^{k} TP_i + \sum_{i=1}^{k} FN_i}$
- 总体F1分数（Micro-F1 Score）：
  $\text{Micro-F1 Score} = \frac{2 \times \text{Micro-Precision} \times \text{Micro-Recall}}{\text{Micro-Precision} + \text{Micro-Recall}}$

总之，宏平均和微平均都是在多类别分类问题中用于综合计算性能指标的方法。选择哪个方法取决于你关心的问题，以及样本分布是否平衡。

在多类别分类问题中，通常还需要对多个混淆矩阵的性能进行综合考虑和计算，以得出模型的整体性能。除了宏平均和微平均之外，还有一些其他常规的方法来综合考虑多个类别的性能，比如加权平均和宏加权平均。让我为你解释一下这些方法：

加权平均：
加权平均考虑了每个类别的重要性，为每个类别分配不同的权重。通常，这些权重可以根据类别的样本分布或者任务的重要性来指定。对于每个类别，计算其相应指标（如精确率、召回率等），然后根据权重进行加权平均。
宏加权平均：
宏加权平均是一种综合考虑每个类别性能的方法。对于每个类别，计算相应指标（如精确率、召回率等），然后对这些指标取加权平均。这种方法将加权平均和宏平均结合起来，可以平衡考虑每个类别的性能。
GM（几何平均）-平均：
几何平均平均是对每个类别指标的几何平均，然后计算总体的几何平均。这种方法可以在处理不平衡样本分布时产生较好的结果。
HM（调和平均）-平均：
调和平均平均是对每个类别指标的调和平均，然后计算总体的调和平均。这种方法在处理不平衡样本分布时也具有一定的优势。