python 混淆矩阵画图_模型评估知识点总结及Python实现

最新推荐文章于 2024-07-23 03:56:36 发布

weixin_39627665

最新推荐文章于 2024-07-23 03:56:36 发布

阅读量1.5k

点赞数

文章标签： python 混淆矩阵画图

本文链接：https://blog.csdn.net/weixin_39627665/article/details/112329212

版权

本文介绍了模型评估的关键概念，包括混淆矩阵、ROC曲线、AUC、查准率和召回率，以及F-measure。在二分类问题中，混淆矩阵用于评估模型性能，ROC曲线和AUC提供了对模型识别能力的直观理解。文章还探讨了在不平衡数据集上使用这些指标的重要性，并简要提到了多分类问题的评估。此外，回归模型的评估指标如MAE、MSE和RMSE也被提及，最后讨论了非监督学习中的聚类模型评估，如RMS和轮廓系数。

摘要由CSDN通过智能技术生成

正文

1.概述

数据集输入到一个模型中，然后再进行输出，我们可以得到模型的输出结果。但是结果该如何评价，到底好不好，好的理由是什么，不好的理由又是什么，这些就是本文将介绍的内容——模型结果评估。

本文主要介绍以下几个方面的内容，对应不同类型的模型，包括分类模型评估、回归模型评估、聚类模型评估、关联模型评估四个方面。如下图：

2.分类评估——混淆矩阵

（1）概念

分类模型评估中我们先来看二分类模型的评估。

二分类，顾名思义，就是标注分类只有两类的分类。二分类在我们的挖掘任务中是非常常见的，我们一般把二分类的一个类叫做二分类任务中的正类，用

来表示；另一类，我们叫做二分类中负类，用

表示。

一般来说，正类是我们相对来说更加关注的类。比如员工近期离职了，我们就可以把这样的样本叫做正类。再比如，从一些店铺里挖掘出存在刷单现象的店铺，那么存在刷单行为的店铺就是我们更关注的分类，即正类，对应正常的店铺不存在刷单就是负类；还比如，一个游戏App存在一些有外挂的用户及作弊用户，那么对于我们的挖掘任务来讲，真正的作弊用户就是我们关注的用户，他们也就是我们关注的正类，而非作弊的正常用户就是我们的负类。

所以，如果拿我们的测试集数据来说，得到的真实数据的标注就会是类似下图这样的，这里面只有

和

，其中

代表正类，

代表负类。