分类模型评估

sky面包蛋糕

已于 2024-04-15 16:03:20 修改

阅读量509

点赞数 5

文章标签：分类人工智能机器学习 python

于 2024-04-15 00:54:37 首次发布

本文链接：https://blog.csdn.net/m0_75013835/article/details/137753024

版权

本文探讨了在机器学习中，特别是使用KNN算法时，不同k值如何影响分类模型的性能。通过计算ROC曲线和AUC值，研究了模型在不同阈值下的排序质量和正样本预测效果，强调了选择合适k值的重要性。

摘要由CSDN通过智能技术生成

一、引言

在机器学习中，分类模型评估是确保模型性能达到预期的重要环节。其中，ROC曲线（Receiver Operating Characteristic Curve，受试者工作特征曲线）是一种重要的评估工具，能够直观地展现模型在不同分类阈值下的性能。本文将通过KNN（K-Nearest Neighbors，K近邻）算法，探讨不同k值对模型性能的影响，并利用ROC曲线进行评估。

二、常见的分类模型评估指标

若一个实例是正类，并且被预测为正类，即为真正类TP(True Positive )
若一个实例是正类，但是被预测为负类，即为假负类FN(False Negative )
若一个实例是负类，但是被预测为正类，即为假正类FP(False Positive )
若一个实例是负类，并且被预测为负类，即为真负类TN(True Negative )

真实标签\预测标签	正例	反例
正例	TF（真正例）	FN（假反例）
反例	FP（假政例）	TN（真假例）

分类模型的评估指标有很多，常见的有：

准确率（Accuracy）：正确分类的样本数与总样本数的比值。 $Accuracy=\frac{TP+TN}{TP+TN+FP+FN}$
精确率（Precision）：预测为正样本的实例中真正为正样本的比例。 $Precision=\frac{TP}{TP+FP}$
召回率（Recall）：实际为正样本的实例中被预测为正样本的比例。 $Recall=\frac{{TP}}{TP+FN}$
F1分数（F1 Score）：精确率和召回率的调和平均值。 $F1=2\cdot \frac{Precision\cdot Recall}{Precision+Recall}$

三、ROC曲线与PR曲线

ROC曲线（Receiver Operating Characteristic Curve）：以真正类率（TPR，即召回率）为纵坐标，假正类率（FPR）为横坐标绘制的曲线。它反映了不同阈值下分类器的性能。
PR曲线（Precision-Recall Curve）：以精确率为纵坐标，召回率为横坐标绘制的曲线。它展示了在不同阈值下，分类器对于正样本的预测效果。

差异：

ROC曲线更关注正负样本之间的排序质量，而PR曲线更关注正样本的预测效果。
当正负样本分布极不平衡时，PR曲线比ROC曲线更有参考价值。

四、ROC曲线与AUC值

ROC曲线（Receiver Operating Characteristic Curve）是一种用于评估二分类模型性能的工具。它通过绘制真正例率（TPR）和假正例率（FPR）之间的关系来展示模型在不同阈值下的性能。AUC值（Area Under the Curve）则是ROC曲线下的面积，它表示了模型的整体性能，AUC值越接近1，模型的性能越好。

五、模型训练与评估

1、划分数据集

将准备好的数据集划分为训练集和测试集。训练集用于训练模型，测试集用于评估模型性能。

2、选择不同的k值进行训练

使用KNN算法，分别选择不同的k值（如k=1,3, 5, 7）对训练集进行训练，得到多个分类模型。

3、计算ROC曲线所需指标

对于每个测试集样本，模型会输出一个属于某个类别的概率。我们可以设定不同的分类阈值，将概率转换为具体的分类结果。然后，计算每个阈值下的真正例率（True Positive Rate, TPR）和假正例率（False Positive Rate, FPR），这些指标将用于绘制ROC曲线。

六、代码实现和ROC曲线图

代码

import numpy as np
import matplotlib.pyplot as plt
from sklearn import datasets
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import roc_curve, auc, accuracy_score

# 加载数据集
cancer = datasets.load_breast_cancer()
X = cancer.data
y = cancer.target

# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# 数据标准化
scaler = StandardScaler()
X_train = scaler.fit_transform(X_train)
X_test = scaler.transform(X_test)

# 初始化ROC曲线的数据
roc_auc_scores = []
k_values = [1, 3, 5, 7, 9]

# 遍历不同的k值
for k in k_values:
    # 训练KNN模型
    knn = KNeighborsClassifier(n_neighbors=k)
    knn.fit(X_train, y_train)

    # 预测概率
    y_pred_prob = knn.predict_proba(X_test)[:, 1]

    # 计算ROC曲线的真正例率和假正例率
    fpr, tpr, thresholds = roc_curve(y_test, y_pred_prob)

    # 计算AUC值
    roc_auc = auc(fpr, tpr)
    roc_auc_scores.append(roc_auc)

    # 绘制ROC曲线
    plt.plot(fpr, tpr, label=f'k={k}, AUC={round(roc_auc, 2)}')

# 绘制对角线
plt.plot([0, 1], [0, 1], 'r--')
plt.xlim([0.0, 1.0])
plt.ylim([0.0, 1.05])
plt.xlabel('False Positive Rate')
plt.ylabel('True Positive Rate')
plt.title('Receiver Operating Characteristic')
plt.legend(loc="lower right")
plt.show()

# 打印每个k值的AUC值
for k, auc in zip(k_values, roc_auc_scores):
    print(f"k={k}, AUC={auc}")