汇总大语言模型LLM的评测基准数据集(BenchMarks)


0. 引言

本文列出 llm 常见的一些 BenchMarks(评测基准)数据集,总有一款适合你!有用的话欢迎关注~

1. 知识与语言理解

1.1 MMLU

Massive Multitask Language Understanding,评测 57个不同学科的通用知识。

1.2 ARC

AI2 Reasoning Challenge,测试小学科学问题的LLM,要求具备深厚的一般知识和推理能力。

1.3 GLUE

General Language Understanding Evaluation,来自多个数据集的各种语言任务的集合,旨在衡量整体语言理解能力。

1.4 Natural Questions

收集人们在谷歌上搜索的现实世界问题,与相关的维基百科页面配对以提取答案。

1.5 LAMBADA

LAnguage Modelling Broadened to Account for Discourse Aspects,测试语言模型基于长上下文理解和预测文本的能力。

1.5 HellaSwag

通过要求 LLM 以需要理解复杂细节的方式完成段落来测试自然语言推理。

1.6 MultiNLI

Multi-Genre Natural Language Inference,由 433K 个句子对组成的基准,涵盖各种英语数据的流派,测试自然语言推理。

1.7 SuperGLUE

GLUE 基准的高级版本,包含更具挑战性和多样性的语言任务。

1.8 TriviaQA

阅读理解测试,包含来自 Wikipedia 的复杂文本中的问题,要求进行情境分析。

1.9 WinoGrande

基于 Winograd Schema Challenge 的大规模问题集,测试句子中的上下文理解情境。

1.10 SciQ

主要包含物理、化学和生物学等自然科学的多项选择题。

2. 推理能力

2.1 GSM8K

包含 8.5K 个小学数学问题,需要基本到中级的数学运算。

2.2 DROP

Discrete Reasoning Over Paragraphs,一个对抗性创建的阅读理解基准,要求模型浏览参考文献并执行添加或排序等操作。

2.3 CRASS

Counterfactual Reasoning Assessment,评估 LLM 的反事实推理能力,重点关注“假设”场景。

2.4 RACE

Large-scale ReAding Comprehension Dataset From Examinations,来自中国学生参加的英语考试的阅读理解问题集。

2.5 BBH

Big-Bench Hard,BIG Bench的一个子集,专注于需要多步骤推理的最具挑战性的任务。

2.6 AGIEval

一系列标准化考试,包括 GRE、GMAT、SAT、LSAT 和公务员考试等标准化测试的集合。

2.7 BoolQ

收集了来自谷歌搜索的15000多个真实的是/否问题,以及维基百科的文章。

3. 多轮开放式对话

3.1 MT-bench

专为评估聊天助手在维持多轮对话中的熟练程度而设计。

3.2 QuAC

Question Answering in Context,包含14000个对话和100000个问答对,模拟学生与教师的互动。

3. 综述抽取与生成能力

3.1 ACI-BENCH

Ambient Clinical Intelligence Benchmark,包含来自各个医疗领域的医生-病人对话和相关的临床笔记。

3.2 MS-MARCO

MAchine Reading COmprehension Dataset, 从真实网络查询中提取的自然语言问题和答案的大规模集合。

3.3 QMSum

Query-based Multi-domain Meeting Summarization,针对特定查询从会议内容中提取和总结重要信息的基准。

3.4 PIQA

Physical Interaction: Question Answering,通过假设性场景和解决方案测试对物理世界的知识和理解。

4. 内容审核和叙事控制

4.1 ToxiGen

一个关于少数群体的恶毒和善意言论的数据集,重点关注隐含的仇恨言论。

4.2 HHH

Helpfulness, Honesty, Harmlessness,评估语言模型与有用性、诚实性和无害性等道德标准的一致性。

4.3 TruthfulQA

评估 LLM 在回答容易产生错误信念和偏见的问题时的真实性的基准。

4.4 RAI

Responsible AI,用于评估聊天优化模型在会话环境中的安全性的框架

5. 编程能力

5.1 CodeXGLUE

评估LLM在代码理解和生成、代码补全和翻译等各种任务中的能力。

5.2 HumanEval

包含编程挑战,评估 LLM 基于指令编写功能性代码的能力。

5.3 MBPP

Mostly Basic Python Programming,包括1000个适合初级程序员的 Python 编程问题。

6. 参考

https://github.com/leobeeson/llm_benchmarks


欢迎关注本人,我是喜欢搞事的程序猿; 一起进步,一起学习;

欢迎关注知乎/CSDN:SmallerFL

也欢迎关注我的wx公众号(精选高质量文章):一个比特定乾坤
在这里插入图片描述

  • 36
    点赞
  • 34
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

SmallerFL

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值