深入了解分类模型评估指标和ROC曲线

Cow.

已于 2024-04-15 16:21:25 修改

阅读量554

点赞数 10

文章标签：分类数据挖掘人工智能

于 2024-04-14 21:30:00 首次发布

本文链接：https://blog.csdn.net/qq_73992050/article/details/137526394

版权

一、引言

分类模型评估指标是评估机器学习算法在分类问题中性能表现的关键工具。了解这些指标的重要性以及常见的评估方法对于正确评估和比较不同分类模型的性能至关重要。

二、评估指标的重要性

衡量模型性能：评估指标可以帮助我们量化分类模型的性能，了解模型在处理不同类别样本时的表现。
比较模型：通过评估指标，我们可以比较不同分类模型的性能，找出最适合特定任务的模型。
优化模型：评估指标可以指导我们调整模型参数、特征工程等步骤，以提高模型的性能。

三、常见的评估方法

a. 准确率（Accuracy）：

准确率是分类正确的样本数量与总样本数量之比。

$Accuracy=\frac{TP+TN}{TP+TN+FP+FN}$

b. 精确率（Precision）：

精确率衡量被分类器判定为正类别的样本中实际为正类别的比例。

$Precision=\frac{TP}{TP+FP}$

c. 召回率（Recall）：

召回率衡量实际为正类别的样本中被分类器正确识别为正类别的比例。

$Recall=\frac{TP}{TP+FP}$

d. F1分数（F1 Score）：

F1分数综合考虑了精确率和召回率，是二者的调和平均值。

$F1=\frac{2*P*R}{P+R}=\frac{2*TP}{样例总数+TP-TN}$

e. 混淆矩阵（Confusion Matrix）：

混淆矩阵是一个N×N矩阵，其中N是类别的数量。它将模型的预测结果与实际标签进行对比，提供更详细的分类性能信息。

通过综合考虑这些评估指标，我们可以更全面地评估分类模型的性能，从而做出更合理的决策和优化模型的方法。

四、ROC曲线和PR曲线的差异

横纵轴不同：ROC曲线的横轴是“假正类率”（False Positive Rate，FPR），纵轴是“真正类率”（True Positive Rate，TPR）。PR曲线的横轴是“召回率”（Recall），纵轴是“精确率”（Precision）。
目标不同：ROC曲线关注的是真正类率和假正类率的平衡，而PR曲线关注的是精确率和召回率的平衡。
数据不平衡处理：当数据不平衡时，PR曲线更能展现模型在正类别上的性能，而ROC曲线可能受到负类别的影响。

五、不同k值下的ROC曲线分析

import numpy as np
import matplotlib.pyplot as plt
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import roc_curve, auc

# 生成随机数据集
np.random.seed(42)
X_train = np.random.rand(100, 2)
y_train = np.random.choice([0, 1], size=100)
X_test = np.random.rand(20, 2)

# 训练KNN模型并预测
k_values = [1, 5, 10]
plt.figure()

for k in k_values:
    knn = KNeighborsClassifier(n_neighbors=k)
    knn.fit(X_train, y_train)
    y_scores = knn.predict_proba(X_train)[:, 1]

    fpr, tpr, _ = roc_curve(y_train, y_scores)
    roc_auc = auc(fpr, tpr)

    plt.plot(fpr, tpr, label=f'ROC curve for k={k} (area = {roc_auc:.2f})')

plt.plot([0, 1], [0, 1], color='navy', linestyle='--')
plt.xlabel('False Positive Rate')
plt.ylabel('True Positive Rate')
plt.title('ROC curve for KNN classification with different k values')
plt.legend()
plt.show()

蓝色虚线代表k=1时的ROC曲线。AUC——曲线下面积为1.00，意味着当k=1时，KNN分类器有着完美的区分能力。没有出现假阳性，真阳性率（TPR）维持在100%。
橙色实线代表k=5时的ROC曲线。这条曲线的AUC是0.64，它低于k=1的情况，表明分类器的性能有所下降。随着假阳性率（FPR）的增长，真阳性率（TPR）也在增长，但是不如k=1的情况那样完美。
绿色实线代表了k=10时的ROC曲线。可以看出，这条曲线（AUC约0.86）介于蓝线和橙线之间，意味着分类器的性能好于k=5但不如k=1。