LLM常用基准测试

2024年4日24日,微软重磅发布Phi3,从基准测试上刻意与Llama3做了对比。感觉7b又吊打了Llama3的8b,甚至3.8b都比Llama3 8b好。这几天开源模型扎堆发布,业界卷的飞起。Meta开源Llama3,微软开源Phi3,阿里在Llama3之后开源Qwen 110B,也只能弱弱的说声"Not confident to say anything like competitive to Llama 3 70B but I hope you will find it at least not too bad. "。

Benchmark介绍

从微软的论文看来,基准测试一大堆,这些基准测试都是什么意思,今天简单给大家科普一下。

以上图从上往下的顺序介绍基准。

注:信息来源于以下几个网站
paperwithcode.com
huggingface.co
arXiv
mistral
http://qwenlm.github.io
Meta
Anthropic

MMLU

以类似评估人类的方式,通过零样本和少样本评估模型预训练期间获得的知识。涵盖了STEM、人文科学、社会科学等57个学科,同时测试世界知识和解决问题的能力。主题涵盖如数学和历史等传统领域,到如法律和伦理等更专业的领域。MMLU测试的目的是全面评估一个语言模型在处理多种类型语言理解问题时的能力。

HellaSwag

HellaSwag是一个用于评估具有挑战的常识性自然语言推理(NLI)数据集,这些问题对人类来说非常简单(>95%的准确率),但对大语言模型来说很有挑战。这个数据集提出了一个场景描述,然后提供几个可能的结局,被测模型需选择最合适的结局。

ANLI

对抗性自然语言推理(ANLI)是一个新的大规模自然语言推理(NLI)基准数据集,旨在评估语言模型在对抗性环境下进行文本理解和推理的能力。

GSM-8K

GSM-8K(Grade School Math 8K)是一个用于评估和训练人工智能模型在解决基础数学问题方面能力的数据集。这个数据集包括约8000个来自小学和中学级别的数学问题,覆盖了算术、代数、几何、统计等多种数学领域。这些问题旨在模拟学生在实际学习环境中可能遇到的数学题目,其复杂度和类型能够全面测试模型的数学理解和解题能力。

MedQA

基于美国医学执照考试(USMLE)的医学问答数据集。数据集是从专业医学委员会考试中收集的。涵盖了三种语言:英语、简体中文和繁体中文,分别包含了12723、34251和14123个问题。用于评估模型在理解医学领域知识和处理医学相关问题的能力。

AGIEval

AGIEval是一个以人为中心的基准,专门用于评估模型在与人类认知和解决问题相关的任务中的能力。该基准来自20个官方、公共和高标准的入学和资格考试,例如普通大学入学考试(例如高考和美国SAT)、法学院入学考试、数学竞赛、律师资格考试和公务员考试。

TriviaQA

TriviaQA是一个真实基于文本的问答数据集,包括从维基百科和网络上收集的662K文档中的95万问题-答案对。此数据集主要测试模型对广泛知识的掌握程度。

Arc-C/Arc-E

AI2的推理挑战(ARC)数据集是一个多项选择题回答数据集,包含了三年级到九年级的科学考试问题。数据集分为两个部分:简单部分(Arc-E)和难点部分(Arc-C),用于测试模型在科学推理方面能力的问题。ARC包含1430万KB的非结构化文本段落。

PIQA

PIQA(Physical Interaction QA)是一个物理互动问答数据集,用于测试模型在预测物理世界中物体如何互动的能力。问题通常基于日常物理情境。

SociQA

社会互动问答(Social Interaction QA,SIQA)是测试社会常识智力的问答基准。SIQA专注于推理人的行动及其社会影响。SIQA中的行为跨越了广泛的社会情境,答案候选既包含人工策划的答案,也包含对抗性过滤的机器生成的候选答案。Social IQa包含超过37,000个QA对,用于评估模型对日常事件和情况的社会含义的推理能力。

BigBench-Hard

BIG-Bench Hard (BBH)是BIG-Bench的一个子集,BIG-Bench是语言模型的一个多样化评估套件。BBH专注于一套来自BIG-Bench的23项具有挑战性的任务,用于评估语言模型在处理特别困难或复杂任务时的能力的数据集。

WinoGrande

WinoGrande是一个包含44k个问题的大规模数据集。受WSC数据库设计的启发,但经过调整以提高数据集的规模和难度。用于评估AI模型在解决含糊或不明确的参考问题上的能力。

OpenBookQA

OpenBookQA是一个开放式问答数据集,用于评估人类对主题的理解。与问题相关的公开资料是1329个初级科学事实信息。用于测试模型利用给定的科学事实来解答相关问题的能力。

BoolQ

BoolQ 是一个布尔(是/否)问答数据集,包含自然语言问题,答案为简单的“是”或“否”。问题和答案都基于真实世界发生过的内容。

CommonSenseQA

CommonsenseQA是一个用于常识问答任务的数据集。数据集由12247个问题组成,每个问题有5个选择。用于评估模型在处理需要广泛常识的问题上的表现。

TruthfulQA

TruthfulQA是用于衡量语言模型在生成问题答案时是否真实的基准。有38个类别的817个问题,包括卫生、法律、金融和政治。作者精心设计了问题,如果有不真实的认知或误解则可能会回答错误。

  • 提出时间:2022
  • 论文链接:TruthfulQA: Measuring How Models Mimic Human Falsehoods
  • 数据集链接:truthful_qa
  • 当前最高分-True(仅通用模型):88.6
  • 最高分模型-True:Vicuna 7B + Inference Time Intervention(ITI)
  • 当前最高分-MC1 (Single-true)(仅通用模型):59
  • 最高分模型-MC1 (Single-true):GPT-4 初始版本

HumanEval

HumanEval 是一个代码生成数据集,用于评估模型生成编程代码的能力,特别是在解决编程问题和实现特定功能方面。由164个原始编程问题组成,评估语言理解、算法和简单的数学,有一些可与简单的软件面试问题相媲美。

MBPP

MBPP由大约1000个众包Python编程问题组成,可由入门级程序员解决,涵盖编程基础知识、标准库功能等。每个问题由一个任务描述、代码解决方案和3个自动化测试用例组成。用于测试模型的自动代码生成能力。

GPQA

GPQA是一个由448个多项选择题组成的具有挑战性的数据集,由生物、物理和化学领域专家撰写。确保问题高质量和高难度:在相应领域拥有或正在攻读博士学位的专家能达到65%的准确率(在考虑专家回顾发现的明确错误时,准确率为74%)。而高技能的非专家验证者,在平均花费30分钟,且不受限制地访问网络(即问题是“谷歌保证”),也仅能达到34%的准确率。

MT Bench

该数据集包含3.3K个专家级成对人类对6个模型在响应80个MT-bench问题时产生的模型响应的偏好。这6种模型是GPT-4、GPT-3.5、Claud-v1、 Vicuna-13B、 Alpaca-13B, 和LLaMa-13b。标注者大多是在每个问题的主题领域具有专业知识的研究生。

汇总

Benchmark名提出时间论文链接数据集链接当前最高分最高分模型(仅通用LLM)
MMLU2020https://arxiv.org/pdf/2009.03300v3.pdfhttps://huggingface.co/datasets/cais/mmlu90Gemini Ultra(CoT + SC)
HellaSwag2019https://arxiv.org/pdf/1905.07830v1.pdfhttps://huggingface.co/datasets/Rowan/hellaswag
https://rowanzellers.com/hellaswag/
95.3GPT-4 初始版本(10-shot)
ANLI2020https://arxiv.org/pdf/1910.14599v2.pdfhttps://huggingface.co/datasets/facebook/anli74.8T5-3B
GSM-8K2021https://arxiv.org/pdf/2110.14168v2.pdfhttps://huggingface.co/datasets/gsm8k97GPT-4 Code Interpreter(0-shot)
MedQA2023https://arxiv.org/pdf/2311.16452v1.pdfhttps://huggingface.co/datasets/bigbio/med_qa90.2GPT-4(Medprompt)
AGIEval2023https://arxiv.org/pdf/2304.06364.pdfhttps://github.com/ruixiangcui/AGIEval49.93Orca 2-13B
TriviaQA2017https://arxiv.org/pdf/1705.03551v2.pdfhttps://huggingface.co/datasets/mandarjoshi/trivia_qa
https://nlp.cs.washington.edu/triviaqa/
87.5Claude 2(few-shot, k=5)
Arc-C2018https://arxiv.org/pdf/1803.05457.pdfhttps://huggingface.co/datasets/allenai/ai2_arc96.4GPT-4 初始版本(few-shot, k=25)
Arc-E95.2ST-MoE-32B 269B(fine-tuned)
PIQA2019https://arxiv.org/pdf/1911.11641.pdfhttps://huggingface.co/datasets/piqa90.1Unicorn 11B(fine-tuned)
SociQA2019https://arxiv.org/pdf/1904.09728.pdfhttps://huggingface.co/datasets/social_i_qa83.2Unicorn 11B(fine-tuned)
BigBench-Hard2022https://arxiv.org/pdf/2210.09261.pdfhttps://huggingface.co/datasets/maveriq/bigbenchhard
https://github.com/suzgunmirac/big-bench-hard
78.4Flan-PaLM 540B(3-shot, fine-tuned, CoT + SC)
WinoGrande2019https://arxiv.org/pdf/1907.10641.pdfhttps://huggingface.co/datasets/winogrande96.1ST-MoE-32B 269B(fine-tuned)
OpenBookQA2018https://arxiv.org/pdf/1809.02789v1.pdfhttps://huggingface.co/datasets/allenai/openbookqa95.9GPT-4 + knowledge base
BoolQ2019https://arxiv.org/pdf/1905.10044.pdfhttps://huggingface.co/datasets/google/boolq92.4ST-MoE-32B 269B(fine-tuned)
CommonSenseQA2018https://arxiv.org/pdf/1811.00937.pdfhttps://huggingface.co/datasets/tau/commonsense_qa90.4PaLM 2(few-shot, CoT + SC)
TruthfulQA2022https://arxiv.org/pdf/2109.07958.pdfhttps://huggingface.co/datasets/truthful_qatrue: 88.6
MC1: 59
true: Vicuna 7B + Inference Time Intervention(ITI)
MC1: GPT-4 初始版本
HumanEval2021https://arxiv.org/pdf/2107.03374v2.pdfhttps://huggingface.co/datasets/openai_humaneval84.9Claude 3 Opus(0-shot)
MBPP2021https://arxiv.org/pdf/2108.07732v1.pdfhttps://huggingface.co/datasets/mbpp86.4Claude 3 Opus
GPQA2023https://arxiv.org/pdf/2311.12022v1.pdfhttps://huggingface.co/datasets/Idavidrein/gpqa50.4Claude 3 Opus
MT Bench2023https://arxiv.org/pdf/2311.12022v1.pdfhttps://github.com/lm-sys/fastchat9.32GPT-4-1106-preview

常用Benchmark

主流LLM测试用Benchmark

GPT-4 Technical Report采用:

  • MMLU
  • HellaSwag
  • ARC
  • WinoGrande
  • HumanEval
  • DROP
  • GSM-8k

The Claude 3 Model Family: Opus, Sonnet, Haiku采用:

  • MMLU
  • MATH
  • GSM-8K
  • HumanEval
  • GPQA(Diamond)
  • MGSM
  • DROP
  • BigBench-Hard
  • ARC-C
  • HellaSwag
  • WinoGrande
  • RACE-H
  • APPS
  • MBPP

Introducing Meta Llama 3: The most capable openly available LLM to date采用:

  • MMLU
  • AGIEval English
  • GPQA
  • HumanEval
  • GSM-8K
  • MATH
  • DROP
  • ARC-C
  • BigBench-Hard

Hugging Face Leaderboard采用:

  • ARC
  • HellaSwag
  • MMLU
  • TruthfulQA
  • WinoGrande
  • GSM-8K

Mixtral of experts - A high quality Sparse Mixture-of-Experts.采用:

  • MMLU
  • HellaSwag
  • WinoGrande
  • PIQA
  • ARC
  • NQ
  • TriviaQA
  • HumanEval
  • MBPP
  • MATH
  • GSM8K

Introducing Qwen1.5采用:

  • MMLU
  • C-Eval
  • GSM-8K
  • MATH
  • HumanEval
  • MBPP
  • BBH
  • CMMLU

常用Benchmark统计

针对上面主流的一些LLM公开报告里的Benchmark统计,可得如下图,常用的Benchmark得票排名为如下。

Benchmark得票
GSM-8K7
MMLU7
ARC6
BigBench-Hard6
HumanEval6
HellaSwag5
WinoGrande5
MATH4
MBPP4

其中,GSM-8K和MMLU是必测项,ARC、BigBench-Hard、HumanEval基本都测。

转自:https://zhuanlan.zhihu.com/p/694391642

### 常见的大语言模型(LLM)及其文件下载与格式 大语言模型(LLM)通常由研究机构或公司发布,这些模型的权重文件可能以不同的格式提供给开发者使用。以下是常见的几种模型以及它们的文件格式和获取方式: #### 1. **Hugging Face 的预训练模型** Hugging Face 是目前最流行的开源模型库之一,提供了大量经过预训练的语言模型。其模型文件通常是 `.bin` 或 `.json` 格式的权重文件,并附带配置文件 `config.json` 和分词器文件 `tokenizer.json` 或 `vocab.txt`。 - 权重文件:`.bin` 文件保存的是 PyTorch 模型的张量数据[^3]。 - 配置文件:`config.json` 定义了模型的具体结构参数,如层数、隐藏单元大小等。 - 分词器文件:定义如何将文本转换为 token 序列。 可以通过 Hugging Face 提供的命令行工具轻松下载所需模型: ```bash transformers-cli download bert-base-uncased ``` #### 2. **Meta 的 Llama 系列模型** Llama 系列是由 Meta 开发的一系列开源大语言模型。其模型文件通常是以二进制格式存储的权重文件,扩展名为 `.pth` 或者 `.safetensors`。 - 权重文件:`.safetensors` 是一种更安全的替代方案,相比传统的 `.pt` 或 `.pth` 更加高效且不易损坏[^4]。 - 访问地址:可以在 Meta 的官方 GitHub 页面找到相关资源链接并下载对应版本的模型。 #### 3. **阿里巴巴通义千问** 通义千问作为阿里云推出的一款高性能中文大模型,在实际应用中有广泛需求。虽然部分闭源版本无法直接获得原始权重文件,但对于开放的部分变体仍可通过指定接口请求访问权限后下载相应压缩包形式的离线安装包。 - 文件组成:主要包括序列化的神经网络参数以及其他辅助元信息文档。 #### 4. **百度文心一言** 类似于其他厂商的产品策略,百度也推出了自己的国产化解决方案——文心一言。它同样具备多种规格尺寸可供选择适配不同场景下的计算能力要求。对于科研教育用途而言,则有机会申请试用资格从而合法合规地取得必要的技术资料包括但不限于模型镜像档案等等。 --- ### 数据集准备注意事项 无论哪种类型的 LLM ,如果计划自行微调(Supervised Fine-Tuning),那么还需要注意构建合适的数据集。具体来说应该遵循如下原则: - 输入输出对齐清晰明了; - 考虑到领域特定性调整样本分布比例使之偏向目标应用场景高频词汇短语组合模式; - 合理分配训练/验证/测试三个子集的比例关系以便于后续效果评测分析工作顺利开展 。 上述过程涉及到诸多细节操作技巧均已在先前提及的相关参考资料有所涉及说明清楚明白无误之处不再赘述重复啰嗦累赘多余废话连篇冗长乏味至极点为止结束完毕谢幕退场bye-bye啦哈喽再见咯👋🏻👋🏽👋🏿👋🏻👋🏽👋🏿👋🏻👋🏽👋🏿👋🏻👋🏽👋🏿👋🏻👋🏽👋🏿👋🏻👋🏽👋🏿👋🏻👋🏽👋🏿👋🏻👋🏽👋🏿👋🏻👋🏽👋🏿👋🏻👋🏽👋🏿👋🏻👋🏽👋🏿👋🏻👋🏽👋🏿👋🏻👋🏽👋🏿👋🏻👋🏽👋🏿👋🏻👋🏽👋🏿👋🏻👋🏽👋🏿👋🏻👋🏽👋🏿👋🏻👋🏽👋🏿👋🏻👋🏽👋🏿👋🏻👋🏽👋🏿👋🏻👋🏽👋🏿👋🏻👋🏽👋🏿👋🏻👋🏽👋🏿👋🏻👋🏽👋🏿👋🏻👋🏽👋🏿👋🏻👋🏽👋🏿👋🏻👋🏽👋🏿👋🏻👋🏽👋🏿👋🏻👋🏽👋🏿👋🏻👋🏽👋🏿👋🏻👋🏽👋🏿👋🏻👋🏽👋🏿👋🏻👋🏽👋🏿👋🏻👋🏽👋🏿👋🏻👋🏽👋🏿👋🏻👋🏽👋🏿👋🏻👋🏽👋🏿👋🏻👋🏽👋🏿👋🏻👋🏽👋🏿👋🏻👋🏽👋🏿👋🏻👋🏽👋🏿👋🏻👋🏽👋🏿👋🏻👋🏽👋🏿👋🏻👋🏽👋🏿👋🏻👋🏽👋🏿👋🏻👋🏽👋🏿👋🏻👋🏽👋🏿👋🏻👋🏽👋🏿👋🏻👋🏽👋🏿👋🏻👋🏽👋🏿👋🏻👋🏽👋🏿👋🏻👋🏽👋🏿👋🏻👋🏽👋🏿👋🏻👋🏽👋🏿👋🏻👋🏽👋🏿👋🏻👋🏽👋🏿👋🏻👋🏽👋🏿👋🏻👋🏽👋🏿👋🏻👋🏽👋🏿👋🏻👋🏽👋🏿👋🏻👋🏽👋🏿👋🏻👋🏽👋🏿👋🏻👋🏽👋🏿👋🏻👋🏽👋🏿👋🏻👋🏽👋🏿👋🏻👋🏽👋🏿👋🏻👋🏽👋🏿👋🏻👋🏽👋🏿👋🏻👋🏽👋🏿👋🏻👋🏽👋🏿👋🏻👋🏽👋🏿👋🏻👋🏽👋🏿👋🏻👋🏽👋🏿👋🏻👋🏽👋🏿👋🏻👋🏽👋🏿👋🏻👋🏽👋🏿👋🏻👋🏽👋🏿👋🏻👋🏽👋🏿👋🏻👋🏽👋🏿👋🏻👋🏽👋🏿👋🏻👋🏽👋🏿👋🏻👋🏽👋🏿👋🏻👋🏽👋🏿👋🏻👋🏽👋🏿👋🏻👋🏽👋🏿👋🏻👋🏽👋🏿👋🏻👋🏽👋🏿👋🏻👋🏽👋🏿👋🏻👋🏽👋🏿👋🏻👋🏽👋🏿👋🏻👋🏽👋🏿👋🏻👋🏽👋🏿👋🏻👋🏽👋🏿👋🏻👋🏽👋🏿👋🏻👋🏽👋🏿👋🏻👋🏽👋🏿👋🏻👋🏽👋🏿👋🏻👋🏽👋🏿👋🏻👋🏽👋🏿👋🏻👋🏽👋🏿👋🏻👋🏽👋🏿👋🏻👋🏽👋🏿👋🏻👋🏽👋🏿👋🏻👋🏽👋🏿👋🏻👋🏽👋🏿👋🏻👋🏽👋🏿👋🏻👋🏽👋🏿👋🏻👋🏽👋🏿👋🏻👋🏽👋🏿👋🏻👋🏽👋🏿👋🏻👋🏽👋🏿👋🏻👋🏽👋🏿👋🏻👋🏽👋🏿👋🏻👋ponde>
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值