一、背景
在过去的一年多里,国内在大模型领域的发展异常迅速,涌现出上百个大模型,许多模型已经迭代了多个版本,并且各种指标不断刷新。与此同时,我们也经常在国内的一些文章中看到声称“吊打 LLaMA 3”或“媲美 GPT-4”的说法。那么,国内的大模型真的已经达到对标 OpenAI 的水平了吗?
实际上,由于大模型的评估指标种类繁多,各种文章中所对比的模型也不尽相同,甚至有时会出现一些误导信息。因此,我们决定系统性梳理一下公认性能较强的大模型的相关指标,以全面了解各种模型的能力。
如下图展示了我们梳理的一部分常见文本类基准评估指标(图中的不同底色表示数据来源,比如淡绿色表示数据来自 LLaMA 3 官方,淡蓝色表示数据来自 Claude 3 Paper,灰色表示来自 OpenAI 官方,淡紫色表示来自 Mixtral 官方等)。需要说明的是,这仅仅是部分常见指标,也并未涉及多模态基准评估。此外,由于数据比较多,且来源繁杂,难免会有遗漏或错误的地方,欢迎指出和纠正。本文中,我们也会简单介绍在收集这些数据时发现的一些问题,遇到的困惑,以及具体数据的来源,以便大家也能更准确的分辨各种大模型的能力。
二、引言
2.1 评估指标
常见的文本任务评估指标包括如下几个:
- MMLU:通用知识和推理能力。
- MATH:数学解决问题能力。
- GSM8K:小学数学。
- HumanEval:Python 编码任务。
- GPQA:大学生物、物理和化学问答。
- DROP:阅读理解和算术。
- Big-Bench-Hard:综合评估。
- ARC-Challenge:常识推理。
- HellaSwag:常识推理。
- AGIEval:大学入学考试和资格考试。
- MT-Bench:多轮对话基准测试。
- AlpacaEval 2.0:指令跟随能力。
2.2 评估框架
Harness 是 EleutherAI 开源的 LLM 评估框架,对应的代码库为:GitHub - EleutherAI/lm-evaluation-harness: A framework for few-shot evaluation of language models.。也是 Huggingface 官方 Open-LLM-Leaderboard (a Hugging Face Space by open-llm-leaderboard)后端使用的评估框架,在很多论文中被使用。
Helm 是斯坦福大学开发的 LLM 评估框架,对应的论文为:[2211.09110] Holistic Evaluation of Language Models,对应的代码库为:https://github.com/stanford-crfm/helm。其可以评估模型在 12 个方面的能力。
simple-evals 是 OpenAI 最近开源的针对几个常见指标的评估工具 (GitHub - openai/simple-evals),也是其 GPT-4o 使用的评估工具。如下图所示为其对应的评估结果:
OpenCompass 是一个国内常用的评估框架,对应的代码库为:OpenCompass is an LLM evaluation platform, supporting a wide range of models (Llama3, Mistral, InternLM2,GPT-4,LLaMa2, Qwen,GLM, Claude, etc) over 100+ datasets.。其也提供详细的 Leaderboard:OpenCompass司南。如下图所示:
2.3 Few-shot & CoT
在评估中经常会使用 few-shot 和 CoT 方法,如下图所示(图片来自 [2205.11916] Large Language Models are Zero-Shot Reasoners)为 0-shot,few-shot 以及是否包含 CoT 的区别,简单来说:
- few-shot 就是表示 Prompt 中会提供一些示例,没有示例表示为 0-shot,5 个示例为 5-shot。
- CoT 就是在 Prompt 中会提供 CoT(Chain of Thought,[2201.11903] Chain-of-Thought Prompting Elicits Reasoning in Large Language Models),也就是推理过程。其中最经典的 C