数据挖掘知识点总结-三个率以及混淆矩阵

简介

学习数据挖掘的知识点总结。

正文

一、 混淆矩阵

在介绍各个率之前,先来介绍一下混淆矩阵。如果我们用的是个二分类的模型,那么把预测情况与实际情况的所有结果两两混合,结果就会出现以下 4 种情况,就组成了混淆矩阵。
在这里插入图片描述

字母含义

  • T:Ture
  • F:False
  • P:Positive
  • N:Nagetive

四个组合的解释

  • TP:实际为真的结果预测为真,正确的积极预测;
  • FP:实际为假的结果预测为真,错误的积极预测;
  • TN:实际为真的结果预测为假,正确的消极预测;
  • FP:实际为假的结果预测为假,错误的积极预测;
    总结就是:前为真实,后为预测

二、三个率一条线

  1. 准确率
    既然是个分类指标,我们可以很自然的想到准确率(Accuracy),准确率的定义是预测正确的结果占总样本的百分比,其公式如下:
    准确率 =(TP+TN)/(TP+TN+FP+FN)
    在这里插入图片描述
    虽然准确率可以判断总的正确率,但是在样本不平衡的情况下,并不能作为很好的指标来衡量结果。举个简单的例子,比如在一个总样本中,正样本占 90%,负样本占 10%,样本是严重不平衡的。对于这种情况,我们只需要将全部样本预测为正样本即可得到 90% 的高准确率,但实际上我们并没有很用心的分类,只是随便无脑一分而已。这就说明了:由于样本不平衡的问题,导致了得到的高准确率结果含有很大的水分。即如果样本不平衡,准确率就会失效。
    正因为如此,也就衍生出了其它两种指标:精准率召回率

  2. 精准率
    精准率(Precision)又叫查准率,它是针对预测结果而言的,它的含义是在所有被预测为正的样本中实际为正的样本的概率,意思就是在预测为正样本的结果中,我们有多少把握可以预测正确,其公式如下:
    精准率 =TP/(TP+FP)
    (建议对表查看,即在表中为
    精准率和准确率看上去有些类似,但是完全不同的两个概念。精准率代表对正样本结果中的预测准确程度,而准确率则代表整体的预测准确程度,既包括正样本,也包括负样本。

  3. 召回率
    召回率(Recall)又叫查全率,书上又说是覆盖率,它是针对原样本而言的,它的含义是在实际为正的样本中被预测为正样本的概率,其公式如下:
    召回率 =TP/(TP+FN)
    在这里插入图片描述

  4. 精准率和召回率的关系,F1 分数
    通过上面的公式,我们发现:精准率召回率的分子是相同,都是 TP,但分母是不同的,一个是**(TP+FP),一个是(TP+FN)**。两者的关系可以用一个 P-R 图来展示:
    在这里插入图片描述
    相关链接

一文让你彻底理解准确率,精准率,召回率,真正率,假正率,ROC/AUC

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Hanzoe_lwh

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值