目标检测问题混淆矩阵与准确率、召回率等

本文链接：https://blog.csdn.net/leonardohaig/article/details/140751795

目标检测问题混淆矩阵与准确率、召回率等

微信公众号：幼儿园的学霸

二分类混淆矩阵

在机器学习和数据科学中，尤其是分类任务中，理解混淆矩阵及其相关指标是非常重要的。这些指标有助于评估模型的性能。下面详细介绍这些概念：

混淆矩阵（Confusion Matrix）

混淆矩阵是一个表格，用来描述分类模型在测试数据集上的表现。它包含以下四个核心元素：

TP（True Positive，真阳性）：实际为正类的样本被正确地分类为正类的数量。
TN（True Negative，真阴性）：实际为负类的样本被正确地分类为负类的数量。
FP（False Positive，假阳性）：实际为负类的样本被错误地分类为正类的数量（也称为Type I错误）。
FN（False Negative，假阴性）：实际为正类的样本被错误地分类为负类的数量（也称为Type II错误）。

评价指标

基于混淆矩阵，可以计算出多种评价指标来衡量模型的性能。

精确率（Precision）

精确率表示在所有被预测为正类的样本中，实际为正类的比例。
$\text{Precision} = \frac{TP}{TP + FP}$
精确率主要关注的是预测结果中的正类样本的质量，即在预测为正类的样本中有多少是准确的。
精确率也有称呼为查准率

召回率（Recall）

召回率表示在所有实际为正类的样本中，被正确预测为正类的比例。
$\text{Recall} = \frac{TP}{TP + FN}$
召回率主要关注的是实际正类样本的覆盖情况，即有多少正类样本被正确识别，因此也叫查全率。

准确率（Accuracy）

准确率表示所有样本中被正确分类的比例。
$\text{Accuracy} = \frac{TP + TN}{TP + TN + FP + FN} \$
准确率衡量的是模型整体的正确性，但在类别不平衡时，准确率可能会比较误导。

综合指标

为了在精确率和召回率之间取得平衡，通常会引入F1-score等综合指标。

F1-score是精确率和召回率的调和平均数，例如，模型A的recall高，precision低，模型B相反，那怎么综合比较模型A和B的性能呢，用这个可以作为综合评价指标。
$\text{F1-score} = 2 \times \frac{\text{Precision} \times \text{Recall}}{\text{Precision} + \text{Recall}}$
F1-score在精确率和召回率之间取得了平衡，对于处理类别不平衡的数据集非常有用。

例子

假设有一个二分类模型，其混淆矩阵如下：

	预测为正类	预测为负类
实际为正类	`TP` = 50	`FN` = 10
实际为负类	`FP` = 5	`TN` = 100

根据上面的数据，可以计算出：

精确率：
$\text{Precision} = \frac{50}{50 + 5} = 0.91$
召回率：
$\text{Recall} = \frac{50}{50 + 10} = 0.83$
准确率：
$\text{Accuracy} = \frac{50 + 100}{50 + 100 + 5 + 10} = 0.93$
F1-score：
$\text{F1-score} = 2 \times \frac{0.91 \times 0.83}{0.91 + 0.83} = 0.87$

这些指标可以帮助我们全面地评估模型的性能，从不同的角度分析模型的优缺点，并指导模型的改进和优化。

多分类混淆矩阵

对于多分类任务也可以使用混淆矩阵。多分类任务的混淆矩阵与二分类的混淆矩阵类似，但它的维度更大，因为它需要处理多个类别之间的分类情况。

多分类混淆矩阵

多分类混淆矩阵是一个 ( N * N ) 的矩阵，其中( N )是类别的数量。矩阵中的每个元素 ( M[i]\[j] ) 表示实际类别为 ( i ) 而被预测为类别 ( j ) 的样本数。

例如，假设我们有一个三分类任务，类别为 A、B 和 C。对应的混淆矩阵可能如下所示：

	预测为A	预测为B	预测为C
实际为A	50	2	1
实际为B	10	45	5
实际为C	0	3	47

计算指标

基于多分类混淆矩阵，我们可以计算多种性能指标：

精确率（Precision）

精确率可以针对每个类分别计算，然后求平均。类别 ( i ) 的精确率计算公式为：
$\text{Precision}\_i = \frac{M[i][i]}{\sum_{k=1}^{N} M[k][i]}$
即预测为类别 ( i ) 的样本中，实际为类别 ( i ) 的比例。

召回率（Recall）

召回率也可以针对每个类别计算，然后求平均。类别( i )的召回率计算公式为：
$\text{Recall}\_i = \frac{M[i][i]}{\sum_{k=1}^{N} M[i][k]}$

即实际为类别( i )的样本中，被正确预测为类别 ( i ) 的比例。

准确率（Accuracy）

准确率计算公式为：
$\text{Accuracy} = \frac{\sum_{i=1}^{N} M[i][i]}{\sum_{i=1}^{N} \sum_{j=1}^{N} M[i][j]}$
即所有被正确分类的样本占总样本数的比例。

F1-score

F1-score 也可以针对每个类别计算，然后求平均。类别 ( i ) 的F1-score计算公式为：
$\text{F1-score}_i = 2 \times \frac{\text{Precision}_i \times \text{Recall}_i}{\text{Precision}_i + \text{Recall}_i}$

宏平均和微平均

对于多分类任务，有两种常用的方式来计算总体的精确率、召回率和 F1-score：宏平均（Macro Average）和微平均（Micro Average）。

宏平均（Macro Average）

宏平均是先计算每个类别的指标，然后对所有类别的指标取平均值。
$\text{Macro Precision} = \frac{1}{N} \sum_{i=1}^{N} \text{Precision}_i \\ \text{Macro Recall} = \frac{1}{N} \sum_{i=1}^{N} \text{Recall}_i \\ \text{Macro F1-score} = \frac{1}{N} \sum_{i=1}^{N} \text{F1-score}_i$

微平均（Micro Average）

微平均是先汇总所有类别的 TP、FP 和 FN，然后计算总体的精确率、召回率和 F1-score。

$\text{Micro Precision} = \frac{\sum_{i=1}^{N} \text{TP}_i}{\sum_{i=1}^{N} (\text{TP}_i + \text{FP}_i)} \\ \text{Micro Recall} = \frac{\sum_{i=1}^{N} \text{TP}_i}{\sum_{i=1}^{N} (\text{TP}_i + \text{FN}_i)} \\ \text{Micro F1-score} = 2 \times \frac{\text{Micro Precision} \times \text{Micro Recall}}{\text{Micro Precision} + \text{Micro Recall}}$

示例代码

以下是一个使用 scikit-learn 库计算和可视化多分类混淆矩阵的示例代码：

import numpy as np
import matplotlib.pyplot as plt
from sklearn.metrics import confusion_matrix, ConfusionMatrixDisplay
from sklearn.metrics import precision_score, recall_score, f1_score

# 假设有一些真实标签和预测标签
y_true = np.array([0, 1, 2, 2, 0, 1, 0, 1, 2, 1])
y_pred = np.array([0, 2, 2, 2, 0, 0, 0, 1, 2, 1])

# 计算混淆矩阵
cm = confusion_matrix(y_true, y_pred)

# 可视化混淆矩阵
disp = ConfusionMatrixDisplay(confusion_matrix=cm)
disp.plot()
plt.show()

# 计算宏平均和微平均的指标
macro_precision = precision_score(y_true, y_pred, average='macro')
macro_recall = recall_score(y_true, y_pred, average='macro')
macro_f1 = f1_score(y_true, y_pred, average='macro')

micro_precision = precision_score(y_true, y_pred, average='micro')
micro_recall = recall_score(y_true, y_pred, average='micro')
micro_f1 = f1_score(y_true, y_pred, average='micro')

print(f"Macro Precision: {macro_precision}")
print(f"Macro Recall: {macro_recall}")
print(f"Macro F1-score: {macro_f1}")
print(f"Micro Precision: {micro_precision}")
print(f"Micro Recall: {micro_recall}")
print(f"Micro F1-score: {micro_f1}")

通过这些方法和工具，可以有效地评估多分类模型的性能，理解模型在各个类别上的表现，并进一步优化模型。

F1 score的计算

F1-measure值是一种统计量，是Precision和Recall统计量加权调和平均的一个评价标准。

$F_{\beta}=\frac{\left(\beta^{2}+1\right) P R}{\beta^{2} \cdot P+R} \tag{4}$

A more general F score, $F_\beta$ , that uses a positive real factor $\beta$ where $\beta$ is chosen such that recall is considered $\beta$ times as important as precision。

$F_1$ 定义为调和均值，此时 $\beta=1$ :
$\frac{2}{F_{1}}=\frac{1}{P}+\frac{1}{R} \tag{5}$

调整下也就是
$F_{1}=\frac{2 P R}{P+R}=\frac{2 T P}{2 T P+F P+F N}\tag{6}$

当参数 $\beta =1$ 时，式(6)就是最常见的F1-Measure形式。
F1分数认为召回率和正确率同等重要，F2分数认为召回率的重要程度是正确率的2倍，而F0.5分数认为召回率的重要程度是正确率的一半。比较常用的是F1分数（F1 Score），是统计学中用来衡量二分类模型精确度的一种指标。

当有些情况下，我们认为Precision更重要，那就调整 $\beta$ 的值小于1；如果我们认为Recall更加重要，那就调整 $\beta$ 的值大于1。
一般来说，当F-Score或F1-score较高时，说明结果较理想。