《Machine Learning Yearning》第8章

第8章主要内容:
1.尽量选单个数字来优化你的模型。
2.如果想要同时考虑几个指标,可以用一种标准方式将它们组合成一个数字(例如平均)。
3.提到了recall、precision、F1 score。

8 Establish a single-number evaluation metric for your team to optimize

 分类准确性可以用一个数字来衡量:你在开发集(或测试集)上运行你的分类器,会返回一个数字,这个数字表示正确分类的比例。通过这个指标,如果分类器A获得了97%的准确率,B获得了90%的准确率,那么我们会判别A更好。

 相比之下,precision(查准率、准确率)和recall(查全率、召回率) 1 1 并不是单数评估指标:它提供了两个数字来评估你的分类器。有多个数字的评估指标会使比较算法时变得困难。假设你的算法表现如下:
这里写图片描述

 没有哪个分类器是很明显好于另一个的,所以这不能立刻决定选哪一个。
这里写图片描述

 在开发过程中,你的团队会尝试各种算法结构、模型参数、特征选择等等。有一个单数字评估标准例如准确性,能让你依靠这个指标对你的模型排序,然后快速决定哪个是最好的。

 如果你真的同时在意Precision和Recall,我建议使用一种标准方式将它们组合成一个数字。例如,可以取precision和recall的平均,这样就成了一个数字了。或者,你可以计算“F1分数”,这是一种计算平均值的改进方式,并且比简单的取平均要好用 2 2
这里写图片描述

 使用单数字评估指标能让你在很多分类器里面快速做选择。它能对他们有一个明确的偏好排名,因此明确了进展的方向。

 最后一个例子,假设你要在四个主要市场中分别跟踪你的猫分类器准确性:(i)美国,(ii)中国,(iii)印度,(iv)其他。你会得到4个数字。通过取这4个数字的平均或者加权平均,最终你将有一个评估数字。取平均或者加权平均是将多个指标组合成一个的最常见的方式。

1 1 猫分类器的查准率是开发集(测试集)选出来的猫中有多少是真正的猫.( TP/(TP+FP) 真 正 例 T P / ( 真 正 例 T P + 假 正 例 F P ) )。查全率是真正的猫有多少被选出来了.( TP/(TP+FN) 真 正 例 T P / ( 真 正 例 T P + 假 反 例 F N ) )。经常在高查准率和高查全率之间中和。

2 2 如果你想了解更多关于F1分数的内容,查看https://en.wikipedia.org/wiki/F1_score。它是查准率和查全率的“调和平均值”。计算公式为 2/((1/precision)+(1/recall)) 2 / ( ( 1 / p r e c i s i o n ) + ( 1 / r e c a l l ) )

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值