sklearn学习之：sklearn实现混淆矩阵

最新推荐文章于 2024-07-19 17:15:27 发布

暖仔会飞

最新推荐文章于 2024-07-19 17:15:27 发布

阅读量4.6k

点赞数 7

分类专栏：机器学习与深度学习文章标签： sklearn 机器学习混淆矩阵

本文链接：https://blog.csdn.net/qq_42902997/article/details/121688840

版权

机器学习与深度学习专栏收录该内容

65 篇文章 38 订阅

订阅专栏

文章目录

得到特征和标签
训练自己的模型
构造混淆矩阵
- 加上合适的标签
- 混淆矩阵传递出的信息

import pandas as pd
import numpy as np
import os
from imblearn.over_sampling import SMOTE
from sklearn.preprocessing import MinMaxScaler, StandardScaler
from sklearn.model_selection import train_test_split
from sklearn.ensemble import *

os.chdir("../../数据/")

这里我省略了 preprocessing() 的具体实现，因为每个人的数据都不一样，而且本文的重点在于混淆矩阵，因此忽略了处理特征的过程。

def preprocessing():
    .....
    .....
    return std_data,label

得到特征和标签

data 代表的是做分类使用的特征矩阵
label 代表的是我的数据的分类的标签
在我自己的数据中，我的 label 一共有三类，即：0,1,2 来表示

data, label = preprocessing()

训练自己的模型

x_train,x_test,y_train,y_test = train_test_split(data,label)
forest = RandomForestClassifier()
forest.fit(x_train,y_train)
score = forest.score(x_test,y_test)

score

0.7647058823529411

构造混淆矩阵

混淆矩阵就是用一种可视化的方式来直观地判断你训练的模型的性能如何
比如我们构造的这个混淆矩阵，一共是 $3 \times 3$ 个格子，我们就用 $(0, 0), (0, 1) . . . (2, 2)$ 来表示
那么 $(0, 1)$ 的含义就是：对于一个样本他的真实标签是 $0$ ,通过训练后的模型预测的标签是 $1$ ；同样地， $(2, 1)$ 表示的含义就是：一个样本的真实标签是 $2$ ，预测标签是 $1$ ；
很显然，主对角线上的三个格子 $(0, 0), (1, 1), (2, 2)$ 表示的就是真实值和预测值一致的情况。
每个格子中的数字，表示的是符合要求的样本个数。比如主对角线上的三个值分别是 $47, 33, 37$ ，他们的和就是整个模型对于 $t e s t$ 数据集合做的预测中预测值和真实标签一致的情况，也就是预测正确的样本数的总和

from sklearn.metrics import confusion_matrix
import seaborn as sns

y_true = y_test
y_pred = forest.predict(x_test)
cm = confusion_matrix(y_true,y_pred)

sns.heatmap(cm,cmap="YlGnBu_r",fmt="d",annot=True)

在这里插入图片描述

加上合适的标签

如果你觉得 0,1,2 这样看起来不够直观，也可以通过将混淆矩阵转换成 dataframe，加了行列标签后再可视化；例如：

cm = pd.DataFrame(cm,columns=["cat","dog","lion"],index=["cat","dog","lion"])
sns.heatmap(cm,cmap="YlGnBu_r",fmt="d",annot=True)

在这里插入图片描述

混淆矩阵传递出的信息

从这个图来看，我们可以发现在模型误判的样本中； $16$ 和 $8$ 是较为突出的两组数
这就是说，有 $8$ 个样本的真实标签是 $d o g$ 的却被误判成了 $l i o n$ ，而有 $16$ 个 $l i o n$ 的样本被误判成了 $d o g$
而 $c a t$ 被误判成 $d o g$ 和 $l i o n$ 的样本数量是很小的；因此我们知道应该在 $l i o n$ 和 $d o g$ 的判断上进行更多工作