数据挖掘学习--精准率和召回率

1.前言

机器学习中,我们的任务通俗的来讲就是训练出更好更准确更优的模型。那么面对不同的模型,我们应该用什么样的指标来评判他的优劣呢?最简单的一个指标,就是模型准确率,通过预测值和真实值的比值直接判断模型是否准确。当然很明显这是有缺陷的。
这里就有好几个更加有意义的模型评估标准:精准率,召回率,TPR,FPR,f1-score以及ROC和AUC值等。本文先介绍一下精准率和召回率。

2.精准率和召回率出现解决的问题

本文介绍的指标都是对最简单的二分类问题来分析。精准率(precision)和召回率(recall)两个都是衡量模型的指标。那有人会问为什么会想着诞生这两个指标,而不用通用的更好理解的模型准确率来衡量呢?这个就是因为,我们的数据样本并非那么优秀,那么理想。理想数据样本下,每一个类别中样本数量都相近,但是,我们在实际的情况下,往往遇到的数据样本并非有这种特性,他们有的就会是某一类别的样本量特别多,占了所有样本的大部分;反而剩下的另一类别的样本数量十分少。若此时仍然用模型准确率(accuracy),就会出现问题。

举个例子:对于一个模型,假如现在我们有10000个数据样本,其中预测的样本有9980个是健康的,20个是患癌症的。而实际上我们这些样本中共有9990个是健康的,10个是患病的。不难看出这个模型准确率是相当高的,达到了99.9%。但是,这个值真的有意义吗?或者说我们的这个值真的能够反映我们的模型是这么准确的一个模型吗?

其实我们也很容易察觉端倪。问题就出现在了这个样本的分布是极端的,我们可以称之为是极度偏斜数据(Shewe

  • 0
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值