机器学习策略篇：详解单一数字评估指标（Single number evaluation metric）

bugyinyin

于 2024-07-29 10:37:25 发布

阅读量216

点赞数 2

文章标签：机器学习人工智能算法深度学习 ai 大模型

本文链接：https://blog.csdn.net/bugyinyin/article/details/140765133

版权

单一数字评估指标

无论是调整超参数，或者是尝试不同的学习算法，或者在搭建机器学习系统时尝试不同手段，会发现，如果有一个单实数评估指标，进展会快得多，它可以快速告诉，新尝试的手段比之前的手段好还是差。所以当团队开始进行机器学习项目时，经常推荐他们为问题设置一个单实数评估指标。

来看一个例子，之前听过说过，应用机器学习是一个非常经验性的过程，通常有一个想法，编程序，跑实验，看看效果如何，然后使用这些实验结果来改善的想法，然后继续走这个循环，不断改进的算法。

比如说对于的猫分类器，之前搭建了某个分类器\(A\)，通过改变超参数，还有改变训练集等手段，现在训练出来了一个新的分类器B，所以评估的分类器的一个合理方式是观察它的查准率（precision）和查全率（recall）。

查准率和查全率的确切细节对于这个例子来说不太重要。但简而言之，查准率的定义是在的分类器标记为猫的例子中，有多少真的是猫。所以如果分类器\(A\)有95%的查准率，这意味着的分类器说这图有猫的时候，有95%的机会真的是猫。

查全率就是，对于所有真猫的图片，的分类器正确识别出了多少百分比。实际为猫的图片中，有多少被系统识别出来？如果分类器\(A\)查全率是90%，这意味着对于所有的图像，比如说的开发集都是真的猫图，分类器\(A\)准确地分辨出了其中的90%。

所以关于查准率和查全率的定义，不用想太多。事实证明，查准率和查全率之间往往需要折衷，两个指标都要顾及到。希望得到的效果是，当的分类器说某个东西是猫的时候，有很大的机会它真的是一只猫，但对于所有是猫的图片，也希望系统能够将大部分分类为猫，所以用查准率和查全率来评估分类器是比较合理的。

但使用查准率和查全率作为评估指标的时候，有个问题，如果分类器\(A\)在查全率上表现更好，分类器\(B\)在查准率上表现更好，就无法判断哪个分类器更好。如果尝试了很多不同想法，很多不同的超参数，希望能够快速试验不仅仅是两个分类器，也许是十几个分类器，快速选出“最好的”那个，这样可以从那里出发再迭代。如果有两个评估指标，就很难去快速地二中选一或者十中选一，所以并不推荐使用两个评估指标，查准率和查全率来选择一个分类器。只需要找到一个新的评估指标，能够结合查准率和查全率。

在机器学习文献中，结合查准率和查全率的标准方法是所谓的\(F_1\)分数，\(F_1\)分数的细节并不重要。但非正式的，可以认为这是查准率\(P\)和查全率\(R\)的平均值。正式来看，\(F_1\)分数的定义是这个公式：\(\frac{2}{\frac{1}{P} + \frac{1}{R}}\)

在数学中，这个函数叫做查准率\(P\)和查全率\(R\)的调和平均数。但非正式来说，可以将它看成是某种查准率和查全率的平均值，只不过算的不是直接的算术平均，而是用这个公式定义的调和平均。这个指标在权衡查准率和查全率时有一些优势。

但在这个例子中，可以马上看出，分类器\(A\)的\(F_1\)分数更高。假设\(F_1\)分数是结合查准率和查全率的合理方式，可以快速选出分类器\(A\)，淘汰分类器\(B\)。

发现很多机器学习团队就是这样，有一个定义明确的开发集用来测量查准率和查全率，再加上这样一个单一数值评估指标，有时叫单实数评估指标，能让快速判断分类器\(A\)或者分类器\(B\)更好。所以有这样一个开发集，加上单实数评估指标，迭代速度肯定会很快，它可以加速改进您的机器学习算法的迭代过程。

来看另一个例子，假设在开发一个猫应用来服务四个地理大区的爱猫人士，美国、中国、印度还有世界其他地区。假设的两个分类器在来自四个地理大区的数据中得到了不同的错误率，比如算法\(A\)在美国用户上传的图片中达到了3%错误率，等等。

所以跟踪一下，的分类器在不同市场和地理大区中的表现应该是有用的，但是通过跟踪四个数字，很难扫一眼这些数值就快速判断算法\(A\)或算法\(B\)哪个更好。如果测试很多不同的分类器，那么看着那么多数字，然后快速选一个最优是很难的。所以在这个例子中，建议，除了跟踪分类器在四个不同的地理大区的表现，也要算算平均值。假设平均表现是一个合理的单实数评估指标，通过计算平均值，就可以快速判断。

看起来算法\(C\)的平均错误率最低，然后可以继续用那个算法。必须选择一个算法，然后不断迭代，所以的机器学习的工作流程往往是有一个想法，尝试实现它，看看这个想法好不好。

最后

感谢你们的阅读和喜欢，我收藏了很多技术干货，可以共享给喜欢我文章的朋友们，如果你肯花时间沉下心去学习，它们一定能帮到你。

因为这个行业不同于其他行业，知识体系实在是过于庞大，知识更新也非常快。作为一个普通人，无法全部学完，所以我们在提升技术的时候，首先需要明确一个目标，然后制定好完整的计划，同时找到好的学习方法，这样才能更快的提升自己。

这份完整版的大模型 AI 学习资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

一、全套AGI大模型学习路线

AI大模型时代的学习之旅：从基础到前沿，掌握人工智能的核心技能！

二、640套AI大模型报告合集

这套包含640份报告的合集，涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师，还是对AI大模型感兴趣的爱好者，这套报告合集都将为您提供宝贵的信息和启示。

三、AI大模型经典PDF籍

随着人工智能技术的飞速发展，AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型，如GPT-3、BERT、XLNet等，以其强大的语言理解和生成能力，正在改变我们对人工智能的认识。那以下这些PDF籍就是非常不错的学习资源。

四、AI大模型商业化落地方案

五、面试资料

我们学习AI大模型必然是想找到高薪的工作，下面这些面试题都是总结当前最新、最热、最高频的面试题，并且每道题都有详细的答案，面试前刷完这套面试题资料，小小offer，不在话下。
在这里插入图片描述

这份完整版的大模型 AI 学习资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

bugyinyin

关注

2
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
机器学习策略篇：详解单一数字评估指标（Single number evaluation metric）

无论是调整超参数，或者是尝试不同的学习算法，或者在搭建机器学习系统时尝试不同手段，会发现，如果有一个单实数评估指标，进展会快得多，它可以快速告诉，新尝试的手段比之前的手段好还是差。所以当团队开始进行机器学习项目时，经常推荐他们为问题设置一个单实数评估指标。
复制链接

扫一扫