多分类混淆矩阵(sklearn.metrics)

本文详细介绍了多分类混淆矩阵的使用方法及其在sklearn库中的实现,包括TP、FN、FP、TN的概念。同时,讲解了敏感性(召回率)、特异性、查准率和F1值等评估指标,以及它们在模型性能评估中的作用。通过实例展示了如何计算这些指标,并分析了它们之间的权衡关系。
摘要由CSDN通过智能技术生成

多分类混淆矩阵(sklearn.metrics)

sklearn.metrics.multilabel_confusion_matrix(y_true, y_pred, *, sample_weight=None, labels=None, samplewise=False)

Examples
Multilabel-indicator case:

>>> import numpy as np
>>> from sklearn.metrics import multilabel_confusion_matrix
>>> y_true = np.array([[1, 0, 1],
...                    [0, 1, 0]])
>>> y_pred = np.array([[1, 0, 0],
...                    [0, 1, 1]])
>>> multilabel_confusion_matrix(y_true, y_pred)
array([[[1, 0],
        [0, 1]],

       [[1, 0],
        [0, 1]],

       [[0, 1],
        [1, 0]]])
>>> y_true = ["cat", "ant", "cat", "cat", "ant", "bird"]
>>> y_pred = ["ant", "ant", "cat", "cat", "ant", "cat"]
>>> mcm = multilabel_confusion_matrix(y_true, y_pred,
...                             labels=["ant", "bird", "cat"])
>>> mcm
array([[[3, 1],
        [0, 2]],

       [[5, 0],
        [1, 0]],

       [[2, 1],
        [1, 2]]])

评估指标

TP(True Positive):将正类预测为正类,真实为 ‘0’,预测也为 ‘0’
FN(False Negative):将正类预测为负类,真实为 ‘0’,预测为 ‘1’
FP(False Positive):将负类预测为正类, 真实为 ‘1’,预测为 ‘0’
TN(True Negative):将负类预测为负类,真实为 ‘1’,预测也为 ‘1’

>>> tn = mcm[:, 0, 0]
>>> fp = mcm[:, 0, 1]
>>> fn = mcm[:, 1, 0]
>>> tp = mcm[:, 1, 1]
>>> tp
(array([2, 0, 2], dtype=int64))
>>> tn
(array([3, 5, 2], dtype=int64))
  1. 敏感性(sensitivity)也叫召回率(recall),也叫查全率。这个指标是看一下正样本中预测对的占总正样本的比例。也可以说成预测器对正样本的敏感性,越大,说明预测器对正样本越敏感。
    s e n s i t i v i t y = t p t p + f n sensitivity = \frac{tp}{tp+fn} sensitivity=tp+fntp

  2. 特异性(specificity)这个和敏感性相反,敏感性算正样本的,而特异性算的是负样本的。换句话说,它是指负样本的敏感性。毕竟你的预测器,不能仅仅是对正样本敏感,负样本,就随意了。所以需要评估一下预测器对负样本的敏感性。
    s p e c i f i c i t y = t n t n + f p specificity = \frac{tn}{tn+fp} specificity=tn+fptn

  3. 查准率(precision), 这是看你预测为正样本中预测正确的占总的预测为正样本的比例。
    p r e c i s i o n = t p t p + f p precision = \frac{tp}{tp+fp} precision=tp+fptp

  4. f1值,一般而言,查全率和查准率是不能同时都很大的。举个例子:你现在有100个A和100个B,你用现在训练好的模型去预测A,预测到有80个A。但是这其中75个是正确的A。也就是说查准率是 75 / 80 = 0.9375 75/80=0.9375 75/80=0.9375,查全率是 75 / 100 = 0.75 75/100=0.75 75/100=0.75。你觉得查全率太低,你继续改进模型。又进行了一次预测,这次预测到了95个A。其中预测正确的有85个,即查全率是 85 / 100 = 0.85 85/100=0.85 85/100=0.85,增加了0.1,但是查准率是 85 / 95 = 0.895 85/95=0.895 85/95=0.895下降了。你想查得越多,就更容易产生误差。为了照顾两头,使得两个指标都有不错得值,就有了f1值。
    F 1 = 2 ∗ p r e c i s i o n ∗ r e c a l l p r e c i s i o n + r e c a l l F_1= \frac{2*precision*recall}{precision+recall} F1=precision+recall2precisionrecall

Examples

TN: true=1, pred=1
FP: true=1, pred=0
FN: true=0, pred=1
TP: true=0, pred=0

>>> y_true = [1, 0, 1, 1, 0, 2]
>>> y_pred = [0, 0, 1, 1, 0, 1]
### 对于"0"这一类而言,计算混淆矩阵
# y_true = [1, 0, 1, 1, 0, 1]
# y_pred = [0, 0, 1, 1, 0, 1]
# TN=3, FP=1, FN=0, TP=2
array([[3, 1],
       [0, 2]])
        
### 对于"1"这一类而言,计算混淆矩阵
# y_true = [0, 1, 0, 0, 1, 1]
# y_pred = [1, 1, 0, 0, 1, 0]
# TN=3, FP=1, FN=0, TP=2
array([[2, 1],
       [1, 2]])

### 对于"2"这一类而言,计算混淆矩阵
# y_true = [1, 1, 1, 1, 1, 0]
# y_pred = [1, 1, 1, 1, 1, 1]
# TN=3, FP=1, FN=0, TP=2
array([[5, 0],
       [1, 0]])
  • 1
    点赞
  • 12
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值