sklearn中混淆矩阵（confusion_matrix函数）的理解与使用

最新推荐文章于 2025-10-30 14:42:30 发布

原创最新推荐文章于 2025-10-30 14:42:30 发布 · 7.4w 阅读

188 ·

CC 4.0 BY-SA版权

文章标签：

#算法 #机器学习 #python #深度学习 #矩阵

机器学习专栏收录该内容

7 篇文章

订阅专栏

本文详细介绍了混淆矩阵的概念，它是机器学习中用于评估分类模型性能的重要工具。混淆矩阵通过比较预测值与实际值，提供了直观的分类精度视图，包括总体精度、制图精度和用户精度等。文章还解释了如何使用sklearn库中的混淆矩阵函数，并提供了具体的代码示例。

混淆矩阵

百度百科的定义：

混淆矩阵（confusion
matrix）也称误差矩阵，是表示精度评价的一种标准格式，用n行n列的矩阵形式来表示。具体评价指标有总体精度、制图精度、用户精度等，这些精度指标从不同的侧面反映了图像分类的精度。
在人工智能中，混淆矩阵（confusion
matrix）是可视化工具，特别用于监督学习，在无监督学习一般叫做匹配矩阵。在图像精度评价中，主要用于比较分类结果和实际测得值，可以把分类结果的精度显示在一个混淆矩阵里面。混淆矩阵是通过将每个实测像元的位置和分类与分类图像中的相应位置和分类相比较计算的。

在机器学习领域，混淆矩阵（confusion matrix），又称为可能性表格或是错误矩阵。
它是一种特定的矩阵用来呈现算法性能的可视化效果，通常是监督学习（非监督学习，通常用匹配矩阵：matching matrix）。
其每一列代表预测值，每一行代表的是实际的类别。
这个名字来源于它可以非常容易的表明多个类别是否有混淆（也就是一个class被预测成另一个class）。

简单的图解：（这张图真的非常好理解）
在这里插入图片描述

使用

官方文档中给出的用法是：
sklearn.metrics.confusion_matrix(y_true, y_pred, labels=None, sample_weight=None)

y_true: 是样本真实分类结果
y_pred: 是样本预测分类结果
labels：是所给出的类别，通过这个可对类别进行选择
sample_weight : 样本权重

实现例子：

from sklearn.metrics import confusion_matrix

y_true=[2,1,0,1,2,0]
y_pred=[2,0,0,1,2,1]

C=confusion_matrix(y_true, y_pred)

结果：

array([[1, 1, 0],
       [1, 1, 0],
       [1, 0, 2]])

下面是官方文档上的一个例子

y_true = ["cat", "ant", "cat", "cat", "ant", "bird"]
y_pred = ["ant", "ant", "cat", "cat", "ant", "cat"]
confusion_matrix(y_true, y_pred, labels=["ant", "bird", "cat"])

运行结果

array([[2, 0, 0],
       [0, 0, 1],
       [1, 0, 2]])

16 条评论

浅挚灬半离兮 2024.01.03
写的不全啊，那里面还有其他参数都没讲，比如最重要的normalize

xiaocai111112 2021.09.28
sklean中混淆矩阵，行的标签代表真实值，列的标签代表预测值。另外第一个例子结果错了，正确结果是这样 array([[1, 1, 0], [1, 1, 0], [0, 0, 2]], dtype=int64)
- 只会划水的小白回复xiaocai111112 2023.07.16
  是不是可以理解为混淆矩阵的行列属性值只与类别个数有关，其值才与预测和真实类别有关，比如一个3个类别的混淆矩阵其为 class1 class2 class3 class 1 value1 valu2 value3 class 2 value4 valu5 value6 class 3 value7 valu10 value9 而value则要看把对应classn预测为类m的个数，需要从 y_true=[...]和y_pred=[...]对应的位置元素进行比较
- Star_lordfish回复xiaocai111112 2023.02.01
  太对了
- 秃头崽崽回复一一佰 2021.10.21
  图没有错误，它指的是代码例子中的第一个例子
- 秃头崽崽回复一一佰 2021.10.21
  列的坐标是代表真值，第一个例子的结果的最后一行应该是[0, 0, 2]，因为2预测成0和1的都是0，2预测为2的是2
- 一一佰回复秃头崽崽 2021.10.20
  第一个图没错啊
- 一一佰回复秃头崽崽 2021.10.20
  应该没有错吧，列的坐标不是代表真值吗？
- 秃头崽崽回复xiaocai111112 2021.09.29
  检查了一下，确实如此，非常感谢指出错误

rpf2020 2021.09.10
多次看到关于混淆矩真实值和预测值的行列所处位置好像有不同的版本，比如《商务智能与分析》这本书里介绍的混淆矩阵在相同数据下是本文中介绍的混淆矩阵的转置，不过我也去看了下sklearn的官方文档，在python下用的应该就是文本介绍的混淆矩阵。
- 秃头崽崽回复rpf2020 2021.09.10
  应该是会有多种不一样的理解，毕竟是在不同场景下，我提到只是我实践过程中遇到的一个理解，希望对你有帮助，互相学习
- rpf2020回复rpf2020 2021.09.10
  打错了，“在python下用的应该就是本文介绍的混淆矩阵”，如有错误欢迎指正。

LR110 2020.11.10
前辈您好，请问求混淆矩阵时，label的size 是[1, 256, 256]，pred的size是[1, 2, 256, 256]，这样可用求吗？
- 秃头崽崽回复LR110 2020.11.19
  label是confusion_matrix的一个参数
- LR110回复秃头崽崽 2020.11.18
  这里的true是不是就代表label呀
- 秃头崽崽回复LR110 2020.11.15
  只要能相对应就可以，我觉得pred是要和true的size相同，和label的关系应该不大。这一块了解不深不一定能解答你的问题