【大模型】hugging face leaderboard排行的指标都是什么意思？

赵大仁

已于 2024-12-25 17:10:26 修改

阅读量968

点赞数 23

分类专栏： AI 技术学习文章标签： ai llama 语言模型开源软件

于 2024-10-22 15:31:14 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/boyzhaotian/article/details/143159549

版权

技术同时被 3 个专栏收录

62 篇文章

订阅专栏

28 篇文章

订阅专栏

21 篇文章

订阅专栏

Hugging Face 的模型排行榜（Leaderboard）通过多个指标评估模型在特定任务上的表现，帮助用户了解模型的性能。这些指标常用于自然语言处理 (NLP) 和其他机器学习领域的模型评估。下面是一些常见的指标及其解释：

1. Accuracy (准确率)

定义：模型预测正确的样本占所有样本的比例。适用于分类任务。
应用：分类任务，如文本分类、情感分析等。

2. F1 Score (F1 分数)

定义：精确率 (Precision) 和召回率 (Recall) 的调和平均数。F1 分数权衡了精确率和召回率，尤其适用于类别不平衡的数据集。
公式：F1 = 2 * (Precision * Recall) / (Precision + Recall)
应用：常用于分类问题，尤其在正负样本分布不均匀时。

3. Precision (精确率)

定义：模型预测为正类的样本中，真正为正类的比例。
公式：Precision = TP / (TP + FP)，其中 TP 是真正例，FP 是假正例。
应用：适用于减少假阳性错误的场景。

4. Recall (召回率)

定义：正类样本中被模型正确识别为正类的比例。
公式：Recall = TP / (TP + FN)，其中 FN 是假负例。
应用：适用于关注假阴性错误的场景。

5. AUC (Area Under the Curve)

定义：ROC 曲线下面积。用于衡量分类器在不同阈值下的整体性能。
应用：适用于二分类问题，衡量分类器对所有阈值的表现。

6. BLEU (Bilingual Evaluation Understudy)

定义：用于评估生成模型输出的文本与目标文本的相似度，尤其常用于机器翻译任务。BLEU 分数考虑了 n-gram 之间的匹配情况。
应用：机器翻译、文本生成任务。

7. ROUGE (Recall-Oriented Understudy for Gisting Evaluation)

定义：用于评估文本摘要和生成任务，计算生成文本与参考文本之间的重叠 n-gram 和长短语。
应用：文本摘要、生成任务。

8. Perplexity (困惑度)

定义：模型对预测文本序列的“困惑”程度，困惑度越低表示模型对数据的预测能力越强。常用于语言模型。
应用：语言模型的评估，如 GPT、BERT 等。

9. Exact Match (EM)

定义：模型生成的文本是否与参考答案完全匹配的比例。常用于问答任务。
应用：问答系统、填空题任务。

10. Mean Reciprocal Rank (MRR)

定义：用于评估排序任务，表示正确答案首次出现的位置的倒数。它的平均值被称为 MRR。
公式：MRR = 1 / rank
应用：信息检索、问答系统。

11. Mean Average Precision (MAP)

定义：评估排序任务中多个查询的平均精确度，综合考虑了排名位置和相关性。
应用：信息检索、排序任务。

12. Token Accuracy (Token 准确率)

定义：在文本生成任务中，模型生成的每个 token 与目标 token 完全匹配的比例。
应用：序列生成任务，如机器翻译、文本生成。

这些指标在 Hugging Face 排行榜上通常结合使用，以便全面评估模型在各种任务中的表现。模型的综合排名可能会依据多个指标共同决定。

博客等级

码龄13年

104
原创

1674
点赞

1293
收藏

799
粉丝

关注

私信

热门文章

分类专栏

前端 21篇
微前端 7篇
SSR 2篇
金融 1篇
大数据 4篇
地产 1篇
人工智能 24篇
Vue.js 5篇
AI 21篇
后端 5篇
ReactNative 1篇
大语言模型 21篇
Python 4篇
计算机原理 1篇
运维 9篇
docker 3篇
虚拟化 5篇
uni-app 5篇
CentOS 1篇
Java 2篇
数据类型 1篇
iOS 1篇
nodejs 1篇
js 20篇
技术 62篇
学习 28篇

最新评论

深入解析 Svelte：下一代前端框架的革命
赵大仁: Svelte 编译时优化，无虚拟DOM；React和Vue运行时更新，使用虚拟DOM。
通义万相：阿里巴巴 AI 生成式多模态平台解析与实战应用
CSDN-Ada助手: 恭喜你这篇博客进入【CSDN每天值得看】榜单，全部的排名请看 https://bbs.csdn.net/topics/619546968。
【序】前端监控：打造高效稳定的用户体验
CSDN-Ada助手: 哇, 你的文章质量真不错，值得学习！不过这么高质量的文章, 还值得进一步提升, 以下的改进点你可以参考下: (1)使用更多的站内链接；(2)提升标题与正文的相关性。
【原创】什么是原码、反码、补码？
做而论道_CS: 进位或周期(360°)，是学校里所教的正式的概念。用它们说明问题，就显得严肃正式的多了。用钟表的一圈来说明问题，就有点俗气了。也就是：不入流的说法。况且，在现代，钟表数字化钟表，比较多见。更有人有了手机，就都不看钟表了。顺时针、逆时针，都有人听不明白。何况，周期是多少！
【原创】什么是原码、反码、补码？
巷尾玫瑰花店: 其实你拿钟表做例子更合适，计算机溢出的那一位抛掉没用就是一圈

大家在看

最新文章

2025

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

赵大仁 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。