机器学习概念笔记（1）——混淆矩阵、Precision、Recall、F-score

最新推荐文章于 2024-10-07 18:19:11 发布

Stefan-0704

最新推荐文章于 2024-10-07 18:19:11 发布

阅读量1.8k

点赞数 1

分类专栏：机器学习概念笔记文章标签：人工智能机器学习深度学习

本文链接：https://blog.csdn.net/qq_28810395/article/details/107221662

版权

机器学习概念笔记专栏收录该内容

1 篇文章

订阅专栏

转载请注明作者和出处：https://blog.csdn.net/qq_28810395

进入机器学习，必定会进行建模，对这些模型性能进行度量，便引入很多性能指标进行衡量，根据其性能指标，逐渐优化我们的模型。

1、混淆矩阵

混淆矩阵我们也称为误差矩阵，利用N×N的矩阵进行进度评价。
在这里插入图片描述
TP(True Positive): 实际为正样本，预测也为正样本，预测正确。（真阳性）
FN(False Negative):实际为正样本，预测为负样本，预测错误。（假阴性）
FP(False Positive):实际为负样本，预测为正样本，预测错误。（假阳性）
TN(True Negative):实际为负样本，预测也为负样本，预测正确。（真阴性）

2、准确率、精准率、召回率

Accuracy（准确率）是分类指标中最初级的指标，是代表了预测正确结果的样本占总样本的百分比，给出定义如下：
在这里插入图片描述
利用其可以判断模型的正确率，但由于受样本不平衡，导致所计算的准确率拥有很大水分，导致结果不正确，所以下述两个指标正是弥补其的不足之处。
Precision（精准率）又称为查准率，代表了预测为正样本中实际是正样本的百分比，给出定义如下：
在这里插入图片描述
*相比于准确率，精准率代表的是正样本中预测正确的概率，而准确率整个模型在全部样本中的准确概率。
Recall（召回率）又称为查全率，代表实际为正样本中被预测为正样本的百分比，给出定义如下：

进行最好模型的选定，常常要选择查准率（精准率）和查全率（召回率）都非常高的点，但是如图所示，两者实际是一个矛盾体（反比曲线），无法形成正比提高，为此要选择一个两者都高的平衡点。所以选择其最好的平衡点（阈值）就需要一个新的指标F值。
在这里插入图片描述

F-score（F值）又称作F1-measure，是综合考虑Precision和Recall的指标，给出定义如下：
在这里插入图片描述
参考：

机器学习，周志华
https://blog.csdn.net/yuxiaosmd/article/details/83046162?utm_medium=distribute.pc_relevant.none-task-blog-BlogCommendFromMachineLearnPai2-3.compare&depth_1-utm_source=distribute.pc_relevant.none-task-blog-BlogCommendFromMachineLearnPai2-3.compare
https://blog.csdn.net/q18421896/article/details/86569296