【技术教程】 理解混淆矩阵:机器学习的强大工具

在机器学习和数据科学领域,预测结果的准确性十分重要,因此,评估预测模型的性能好坏也尤为关键,而在分类型模型评判的指标中,常见的方法有如下三种:混淆矩阵(也称误差矩阵,Confusion Matrix)、ROC曲线、AUC面积。混淆矩阵用处广泛,是ROC曲线绘制的基础,同时它也是衡量分类型模型准确度中最基本,最直观,计算最简单的方法。

因此,本次我们将给大家介绍混淆矩阵的相关内容,推荐一篇发表在medium平台上的文章《理解混淆矩阵:机器学习中的强大工具》,该文章聚焦混淆矩阵,深入探讨混淆矩阵的概念及其在评估分类模型中的意义,希望能帮助到有需要的读者加深对相关概念的理解。
以下为该文章的基本信息:

题目:Understanding the Confusion Matrix: A Powerful Tool in Machine Learning

链接:https://medium.com/@eLNjasi/understanding-the-confusion-matrix-a-powerful-tool-in-machine-learning-c9db53983b6b

作者:eL Njas!™ --Cyber Security Analyst || Python Dev || Computational writer

下面我们来详细看一下这篇文章吧!

一、场景

在深入分析具体的使用场景之前,让我们先了解一下混淆矩阵的基础知识。

混淆矩阵,又称误差矩阵,是表示精度评价的一种标准格式,用n行n列的矩阵形式来表示。具体评价指标有总体精度、制图精度、用户精度等,这些精度指标从不同的侧面反映了图像分类的精度,能全面反映分类模型的性能。混淆矩阵在处理二元分类问题时十分高效,一般而言,项目通常会被划分为两种类别中的一种情况,如通过或失败、垃圾邮件或非垃圾邮件、是或否等。

混淆矩阵由四个关键部分组成:

1. 真正(True Positives, TP):

又称判断为真的正确率,模型正确预测正类的情况。例如,正确预测学生通过考试。

2. 真负(True Negatives, TN):

又称判断为假的正确率,模型正确预测负类的情况。例如,正确预测学生会挂科。

3. 假正 ( False Positives , FP):

又称误报率,模型在本应预测负类的情况下错误地将其预测成正类。例如,学生实际挂科时会被模型错误地预测为通过。

4.假负(False Negatives, FN):

又称漏报率,模型在本应预测正类的情况下错误地将其预测成负类。例如,学生实际上通过时会被模型错误地预测为挂科。

图一:混淆矩阵示意图

现在,让我们将混淆矩阵应用到案例中:

图二:可视化混淆矩阵的代码

图三:代码执行后结果

在此代码中,我们随机生成预测值和实际值,但在实际场景中,读者可根据需求使用评估模型的预测值与实际结果。

二、混淆矩阵的分析

获得混淆矩阵后,可根据以下几个基本指标来评估模型的性能:

1. 准确率(Accuracy):

准确率表示正确预测的实例(包括真正和真负)与实例总数的比率,即(TP+TN)/(TP+TN+FP+FN),其从整体角度提供了模型性能的衡量标准。

2. 精准率(Precision):

精准率是在所有被预测为正的样本中实际为正的样本的概率,即TP/(TP+FP),表征在预测为正样本的结果中,我们有多少把握可以预测正确。

3.召回率(Recall):

召回率是真正与总实际正确(真正与假负)的比率,即TP/(TP+FN),衡量模型正确识别所有正样本的能力。

4、F分数(F1 Score):

人们通常使用精准率和召回率这两个指标,来评价二分类模型的分析效果。

但是当这两个指标发生冲突时,我们很难在模型之间进行比较。比如,我们有如下两个模型A、B,A模型的召回率高于B模型,但是B模型的精准率高于A模型,A和B这两个模型的综合性能,哪一个更优呢?为了解决这个问题,人们提出了分数Fβ。

Fβ的物理意义就是将精准率和召回率这两个分值合并为一个分值,在合并的过程中,召回率的权重是精准率的β倍。F1分数认为召回率和精准率同等重要,F2分数认为召回率的重要程度是精准率的2倍,而F0.5分数认为召回率的重要程度是精准率的一半。

其中,F1分数应用最为广泛,F1分数兼顾了分类模型的精确率和召回率,是两种指标的一种调和平均值,其最大值是1,最小值是0,提供了模型性能的平衡衡量的标准,尤其是在处理不平衡数据集时。

在探索混淆矩阵的过程中,我们学习到这个强大的工具如何帮助我们评估分类模型的性能。通过分析真正(TP)、真负(TN)、假正(FP)和假负(FN),我们可以更深入地了解模型的优点和缺点。

然而混淆矩阵并不是模型评估时的唯一标准。根据您具体要解决的问题和达到的目标,还需要针对性地考虑其他的指标和技术。尽管如此,混淆矩阵仍是机器学习从业者不可或缺的工具,能有效帮助我们做出明智的决策并改进模型。


 

  • 21
    点赞
  • 13
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值