sklearn学习之:sklearn实现混淆矩阵

import pandas as pd
import numpy as np
import os
from imblearn.over_sampling import SMOTE
from sklearn.preprocessing import MinMaxScaler, StandardScaler
from sklearn.model_selection import train_test_split
from sklearn.ensemble import *
os.chdir("../../数据/")
  • 这里我省略了 preprocessing() 的具体实现,因为每个人的数据都不一样,而且本文的重点在于混淆矩阵,因此忽略了处理特征的过程。
def preprocessing():
    .....
    .....
    return std_data,label

得到特征和标签

  • data 代表的是做分类使用的特征矩阵
  • label 代表的是我的数据的分类的标签
  • 在我自己的数据中,我的 label 一共有三类,即:0,1,2 来表示
data, label = preprocessing()

训练自己的模型

x_train,x_test,y_train,y_test = train_test_split(data,label)
forest = RandomForestClassifier()
forest.fit(x_train,y_train)
score = forest.score(x_test,y_test)

score
0.7647058823529411

构造混淆矩阵

  • 混淆矩阵就是用一种可视化的方式来直观地判断你训练的模型的性能如何
  • 比如我们构造的这个混淆矩阵,一共是 3 × 3 3 × 3 3×3 个格子,我们就用 ( 0 , 0 ) , ( 0 , 1 ) . . . ( 2 , 2 ) (0,0),(0,1)...(2,2) (0,0),(0,1)...(2,2) 来表示
  • 那么 ( 0 , 1 ) (0,1) (0,1) 的含义就是:对于一个样本他的真实标签是 0 0 0,通过训练后的模型预测的标签是 1 1 1;同样地, ( 2 , 1 ) (2,1) (2,1) 表示的含义就是:一个样本的真实标签是 2 2 2,预测标签是 1 1 1
  • 很显然,主对角线上的三个格子 ( 0 , 0 ) , ( 1 , 1 ) , ( 2 , 2 ) (0,0),(1,1),(2,2) (0,0),(1,1),(2,2) 表示的就是真实值和预测值一致的情况。
  • 每个格子中的数字,表示的是符合要求的样本个数。比如主对角线上的三个值分别是 47 , 33 , 37 47,33,37 47,33,37,他们的和就是整个模型对于 t e s t test test 数据集合做的预测中 预测值和真实标签一致的情况,也就是预测正确的样本数的总和
from sklearn.metrics import confusion_matrix
import seaborn as sns
y_true = y_test
y_pred = forest.predict(x_test)
cm = confusion_matrix(y_true,y_pred)
sns.heatmap(cm,cmap="YlGnBu_r",fmt="d",annot=True)

在这里插入图片描述

加上合适的标签

  • 如果你觉得 0,1,2 这样看起来不够直观,也可以通过将 混淆矩阵转换成 dataframe,加了行列标签后再可视化;例如:
cm = pd.DataFrame(cm,columns=["cat","dog","lion"],index=["cat","dog","lion"])
sns.heatmap(cm,cmap="YlGnBu_r",fmt="d",annot=True)

在这里插入图片描述

混淆矩阵传递出的信息

  • 从这个图来看,我们可以发现在模型误判的样本中; 16 16 16 8 8 8 是较为突出的两组数
    在这里插入图片描述

  • 这就是说,有 8 8 8 个样本的真实标签是 d o g dog dog 的却被误判成了 l i o n lion lion,而有 16 16 16 l i o n lion lion 的样本被误判成了 d o g dog dog

  • c a t cat cat 被误判成 d o g dog dog l i o n lion lion 的样本数量是很小的;因此我们知道应该在 l i o n lion lion d o g dog dog 的判断上进行更多工作

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

暖仔会飞

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值