混淆矩阵及confusion_matrix函数的使用

关于混淆矩阵的概念,可参考此篇博文混淆矩阵

1.混淆矩阵
混淆矩阵是机器学习中总结分类模型预测结果的情形分析表,以矩阵形式将数据集中的记录按照真实的类别与分类模型作出的分类判断两个标准进行汇总。这个名字来源于它可以非常容易的表明多个类别是否有混淆(也就是一个class被预测成另一个class

下图是混淆矩阵的一个例子
这里写图片描述

其中灰色部分是真实分类和预测分类结果相一致的,绿色部分是真实分类和预测分类不一致的,即分类错误的。

2.confusion_matrix函数的使用

官方文档中给出的用法是
sklearn.metrics.confusion_matrix(y_true, y_pred, labels=None, sample_weight=None)

y_true: 是样本真实分类结果,y_pred: 是样本预测分类结果
labels:是所给出的类别,通过这个可对类别进行选择
sample_weight : 样本权重

实现例子:

from sklearn.metrics import confusion_matrix

y_true=[2,1,0,1,2,0]
y_pred=[2,0,0,1,2,1]

C=confusion_matrix(y_true, y_pred)

运行结果:

这里写图片描述

这儿没有标注类别:下图是标注类别以后,更加好理解

这里写图片描述

关于类别顺序可由 labels参数控制调整,例如 labels=[2,1,0],则类别将以这个顺序自上向下排列。默认数字类别是从小到大排列,英文类别是按首字母顺序排列

下面是官方文档上的一个例子

y_true = ["cat", "ant", "cat", "cat", "ant", "bird"]
y_pred = ["ant", "ant", "cat", "cat", "ant", "cat"]
confusion_matrix(y_true, y_pred, labels=["ant", "bird", "cat"])

运行结果

array([[2, 0, 0],
       [0, 0, 1],
       [1, 0, 2]])

以上是关于confusion_matrix函数的用法,欢迎大家一起交流学习强调内容

  • 69
    点赞
  • 206
    收藏
    觉得还不错? 一键收藏
  • 5
    评论
### 回答1: `confusion_matrix` 函数是 Scikit-learn 库中的一个评估分类模型性能的函数。它用于计算分类模型在测试集上的混淆矩阵,即真阳性(True Positive)、假阳性(False Positive)、真阴性(True Negative)、假阴性(False Negative)的数量。该函数的语法如下: ``` confusion_matrix(y_true, y_pred, labels=None, sample_weight=None, normalize=None) ``` 其中,参数含义如下: - `y_true`:测试集的真实标签; - `y_pred`:分类器在测试集上的预测标签; - `labels`:指定标签的值,可以是列表或者 None。如果为 None,则默认为所有不同的标签值; - `sample_weight`:每个样本的权重,可以是 None 或者数组。如果为 None,则每个样本权重相等; - `normalize`:指定混淆矩阵是否应该被规范化。如果为 None,则返回混淆矩阵中的元素数量。如果为 'true',则返回混淆矩阵中的元素比例。 该函数的返回值为混淆矩阵。例如,对于二分类问题,混淆矩阵如下: | | 预测正类 | 预测负类 | | ------- | -------- | -------- | | 真实正类 | TP | FN | | 真实负类 | FP | TN | 其中,TP 表示真正例数量,FN 表示假反例数量,FP 表示假正例数量,TN 表示真反例数量。 ### 回答2: confusion_matrix函数是在机器学习领域中常用的性能评估指标之一。它用于衡量分类模型的准确性和错误率,并提供了一个混淆矩阵,用于可视化模型的分类结果。 混淆矩阵是一个二维矩阵,通常是一个n×n的矩阵,其中n是分类的类别数。混淆矩阵的行表示实际类别,列表示预测类别。其中的每个元素表示在真实类别为行索引,预测类别为列索引的情况下,分类器的预测结果数量。 以二分类为例,混淆矩阵的模板通常如下所示: 预测为正类 预测为负类 实际为正类 TP FN 实际为负类 FP TN 其中,TP表示真实为正类,预测结果为正类的数量;FN表示真实为正类,预测结果为负类的数量;FP表示真实为负类,预测结果为正类的数量;TN表示真实为负类,预测结果为负类的数量。 通过混淆矩阵,可以计算出分类模型的不同性能指标,如准确率(accuracy)、精确率(precision)、召回率(recall)和F1-score等。 准确率:指分类器正确分类的样本数量占总样本数量的比例。计算方法为( TP + TN ) / ( TP + FP + FN + TN )。 精确率:指分类器预测为正类的样本中,真正为正类的比例。计算方法为 TP / ( TP + FP )。 召回率:指分类器正确预测为正类的样本占实际为正类的样本数量的比例。计算方法为 TP / ( TP + FN )。 F1-score:综合了精确率和召回率的一个综合评价指标,计算方法为 2 * ( 精确率 * 召回率 ) / ( 精确率 + 召回率 )。 混淆矩阵函数可以帮助我们更好地理解分类模型的性能,判断模型的健壮性和领域适应性。 ### 回答3: confusion_matrix函数是一种用于评估分类模型性能的工具。它是机器学习中常用的函数之一,可以通过对模型预测结果与真实标签进行比较,来计算出分类模型的准确率、精确率、召回率和F1值等指标。 该函数的输入是一个模型的预测结果和真实标签,它将根据这两个输入生成一个二维数组,称为混淆矩阵混淆矩阵的行代表真实的类别,列代表预测的类别。每个矩阵元素表示该类别的样本被预测为其他类别的数量。 在混淆矩阵的对角线上,即矩阵元素的行数和列数相同的位置,表示被正确分类的样本数量。而非对角线上的元素则表示被错误分类的样本数量。 通过混淆矩阵,我们可以计算出以下指标来评估模型性能: 1. 准确率(Accuracy):被正确分类的样本数量占所有样本数量的比例。 2. 精确率(Precision):在所有被模型预测为正类的样本中,真正为正类的比例。 3. 召回率(Recall):真正为正类的样本被模型预测为正类的比例。 4. F1值:精确率和召回率的调和平均值,综合考虑了模型的精确性和召回率。 混淆矩阵函数对模型的性能评估非常有帮助,能够帮助我们对分类模型的表现有更全面的了解。通过解读混淆矩阵,我们可以找出模型的优点和不足之处,进而对模型进行改进或者调整。
评论 5
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值