分类模型评估指标及ROC曲线和PR曲线

最新推荐文章于 2024-09-13 13:43:06 发布

凯旋yyds

最新推荐文章于 2024-09-13 13:43:06 发布

阅读量776

点赞数 7

文章标签：分类机器学习人工智能

本文链接：https://blog.csdn.net/m0_74397934/article/details/137752026

版权

本文详细介绍了分类模型评估的关键指标，如准确率、精确率、召回率、F1分数以及ROC曲线和PR曲线的概念。特别关注了KNN算法在不同K值下的ROC曲线分析，强调了选择合适K值对模型性能的影响。

摘要由CSDN通过智能技术生成

精确率（Precision): 就是预测正确的正例数据占预测为正例数据的比例。

KNN算法对不同K值下的ROC曲线的分析：

分类模型评估指标

分类模型：

分类模型是机器学习的一种类型，它的任务是通过学习样本的特征来预测样本的类别。

为什么要评估分类模型：

评估分类模型的性能非常重要，因为它能帮助我们了解模型的表现如何，以及模型在实际应用中的可能表现。通过使用不同的评估指标，可以从不同的角度理解模型的性能。作为使用场景最为广泛的机器学习模型，其评估指标也随着使用场景的拓展而不断丰富，例如，可以通过查看模型的准确率来了解模型正确预测的比例，还有精确度、召回率、F1分数、受试者特征曲线（ROC-AUC）、真阳性率（True Positive Rate, TPR）、假阳性率（False Positive Rate, FPR）等，不同评估指标有对应的不同的计算方法，同时也对应着不同的使用场景。

常见的分类模型：

准确率（Accuracy）：正确分类样本数占总样本数的比例。
精确率（Precision/P）、召回率（Recall/R）：在所有预测为正例的样本中，有多少是真正正例（精确率）；在所有真实正例中，有多少被成功预测为正例（召回率）。
F1分数（F1 Score）：精确率和召回率的调和平均数，用来衡量模型在精确性和全面性上的平衡程度。
ROC曲线：ROC曲线是用来验证一个分类器（二分）模型的性能的。其工作原理是，给出一个模型，输入已知正负类的一组数据，并通过对比模型对该组数据进行的预测，衡量这个模型的性能。
真阳性率（True Positive Rate, TPR）、假阳性率（False Positive Rate, FPR）：TPR是召回率的别称，而FPR是1减去特异度（Specificity）。

准确率（Accuracy）：

$Accuracy=\frac{TP+TN}{TP+TN+FP+FN}=\frac{TP+TN}{P+N}$

分母是全部四种数据；分子中第一个字母是 T 表示 "算法预测正确了"。

准确率有一个缺点，就是数据的样本不均衡，这个指标是不能评价模型的性能优劣的。

假如一个测试集有正样本999个，负样本1个。我们设计的模型是个无脑模型，即把所有的样本都预测为正样本，那么模型的Accuracy为99.9%，看评价指标，模型的效果很好，但实际上模型没有任何预测能力。

精确率（Precision): 就是预测正确的正例数据占预测为正例数据的比例。

$Precision=\frac{TP}{TP+FP}$

分母中, TP表示 : 算法预测正确 & 预测的是正例，FP表示 : 算法预测错误 & 预测的是正例（实际是负例）

召回率（Recall）：

$recall=\frac{TP}{TP+FN}$

召回率（Recall）是指分类器正确预测为正例的样本数量（True Positives，TP）与所有实际正例的样本数量（True Positives + False Negatives，TP + FN）的比值。召回率表示有多少真正的正例被成功预测出来了。

F1分数（F1 Score）：

F1分数是精确率和召回率的调和平均值，用于综合考虑分类器的性能。它的计算公式如下：

F1分数 = 2 * (精确率 * 召回率) / (精确率 + 召回率)