机器学习模型度量方法,分类及回归模型评估

如何度量模型的性能

对于分类和回归两类监督学习,分别有各自的评判标准
分类:预测的变量的离散的
回归:预测的变量的连续的

一、分类模型的评估

在对比不同模型的能力时,使用不同的性能度量时往往会导致不同的判断结果。因为不同的度量指标侧重点不同。

1. 准确率/精度(Accuracy)、查准率 / 精确率(Precision)、查全率 / 召回率(Recall)

对于二分类问题:
在这里插入图片描述
在这里插入图片描述

查准率表现为预测为正的样本中有多少是真的正样本
查全率表现为所有真的正样本中到底有多少被检测出来。

查准率和查全率的应用场景

在审判犯罪嫌疑人时,我们希望司法系统的查准率越高越好,即尽量不要冤枉无辜者,因为误判为正样本的后果很严重;

对于银行的欺诈检测系统来说,通常希望它的查全率越高越好,即尽量把欺诈账户识别出来,因为漏检会带来很大损失,而误判为正样本则影响不大。

这意味着模型的好坏是相对的,什么样的模型是好的,不仅取决于算法和数据,还取决于任务需求。

2. 混淆矩阵

混淆矩阵的每一列代表预测值,每一行代表的是实际类别。
这个名字来源于它可以非常容易的表明多个类别是否有混淆(一个class被预测成另一个class)。

对于二分类:
在这里插入图片描述

对于多分类:

假设有一个用来对Dog、Cat、Tiger进行分类的系统,混淆矩阵就是为了进一步分析性能而对该算法测试结果做出的总结。假设总共有 27只动物:3只狗, 6只猫, 12只老虎。预测结果的混淆矩阵如下图:
在这里插入图片描述

实际有12只老虎,有3只被误判成狗,4只被误判成猫

所有正确的预测结果都在对角线上,所以从混淆矩阵中可以很方便直观的看出哪里有错误。

3. F 1 F1 F1 F β Fβ Fβ

F 1 F1 F1基于查准率与查全率的调和平均定义的,更接近于两个数较小的那个,所以查准率和查全率接近时, F 1 F1 F1值最大。

2 F 1 = 1 P r e c i s i o n + 1 R e c a l l \frac{2}{F1} = \frac{1}{Precision} + \frac{1}{Recall} F12=Precision1+Recall1

在一些应用中,对查准率和查全率的重视程度有所不同,因此就有了 F

  • 1
    点赞
  • 12
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值