2.6 大模型数据基础：大模型评估数据详解

本文链接：https://blog.csdn.net/HoyingHan/article/details/141915591

本系列目录

《带你自学大语言模型》系列部分目录及计划，完整版目录见：带你自学大语言模型系列 —— 前言

第一部分走进大语言模型（科普向）

第二部分构建大语言模型（技术向）

第三部分大语言模型应用

第六章检索增强生成（RAG）
- 6.1 RAG 技术概览，从AI搜索谈起——《带你自学大语言模型》系列

… …

写在前面

相比于研究大模型的构建、微调、应用，之前对大模型评估这一块投入较少，现在逐渐意识到它的重要性。

如果只有一个大模型，甭管评估出来好坏，你也只能用一个，但现在大模型多了，各家都说自己的好，那到底是哪个好，评估的重要性就凸显出来了。

就像现在出去买个奶茶，鲜奶茶，果茶，杨枝甘露每家都有一样的品，还都说自己是最好的，什么七窨茉莉，什么新鲜水果，什么405B，什么多模态，什么20万长文本吧啦吧啦的一堆宣传语，普通消费者光看这个，怎么知道A家的芝芝多肉葡萄和B家的超A芝士葡萄哪个好喝，怎么评估算好喝，越内卷，评估就越重要…

本篇仍然是工具属性较多，整理了大量的评估数据集来源，建议是可以收藏，有需要的时候再看，我也是这样操作的

本节目录

2.6.1 评估方法
- 2.6.1.1 代码评估
- 2.6.1.2 人类评估
- 2.6.1.3 模型评估
2.6.2 评估数据集
- 2.6.2.1 通用数据集
- 2.6.2.2 考试领域
- 2.6.2.3 学科领域
- 2.6.2.4 自然语言理解的数据集
- 2.6.2.5 推理评估数据集
- 2.6.2.6 知识评估数据集
- 2.6.2.7 长文本评估数据集
- 2.6.2.8 工具评估数据集
- 2.6.2.9 Agent评估数据集
- 2.6.2.10 代码评估数据集
- 2.6.2.11 法律评估数据集
- 2.6.2.12 医疗评估数据集
- 2.6.2.13 金融评估数据集
2.6.3 评估数据集的数据分布
参考文献

2.6.1 评估方法

先对评估方法进行简单介绍，评估方法可以分为自动化评估和非自动化评估。自动评估又分为代码评估和模型评估，非自动评估主要是指人类评估。

2.6.1.1 代码评估

代码评估的方法包括从大模型获取结果，使用代码统计计算预定义的评估指标，通过这些指标的数值来衡量LLMs的有效性。主要的评估指标包括：准确率、F1分数、BLEU [82]、ROUGE [2]、Exact Match [3]、皮尔逊相关系数[4]等。例如，准确率可以用于分类任务中评估LLMs分类的精确度。在翻译任务中，BLEU用于评估LLMs的翻译与真实注释的相似度。

有些评估数据集不仅提供自定义计算方法，还贴心的提供了相关代码，可以直接应用于LLMs性能的评估和分析。

代码评估的适用场景主要是客观问题和预定义答案的简单主观问题，如基础知识查询和翻译练习。并不适合评估评估开放式主观问题，如涉及生成和头脑风暴的问题。

2.6.1.2 人类评估

人类评估方法包括质量评分（如QizhenGPT评估数据集[5]和CLIB数据集 [6]中所见）、质量比较评估[7]等等。

这种方法的优劣势也比较明显，优势是在开放式主观问题和缺乏标准答案的复杂问题上表现好，劣势是成本高，以及会存在主观偏见。

2.6.1.3 模型评估

模型评估是一种新方式，其中问题、参考答案、评估标准和测试模型的响应被整合到一个最优提示中。然后将这些综合信息输入模型进行评估。

这种评估方法，一般选择当前性能高的LLMs，并提供合适的评估指导。它的优势在于能够替代大量的人工，从而实现更快的评估过程。局限性在于依赖于LLMs的性能，并且可能不总是与人类价值观和判断相一致。

2.6.2 评估数据集

2.6.2.1 通用数据集

通用数据集的数据规模通常比较小，并且主要用于评估大模型两方面的表现：多功能性和指令遵循。

1、多功能性。评估它们在多个领域的一般指令上的表现。

Vicuna Evaluation[8] 评估模型在九个问题类别中的表现，使用 GPT-4 来判断输出质量，并提供对整体模型质量的初步评估。在此基础上，AlpacaEval [9] 包括来自不同数据集的指令样本，提供对不同开放式问题回答性能的更广泛评估。
BayLing-80[10] 进一步扩展了 Vicuna Evaluation，评估大型语言模型在中文和英文的通用能力和会话能力。BELLE_eval[11] 和 MT-Bench[12]采用类似的评估方法。前者旨在评估模型在遵循中文场景中的指令方面的表现，而后者专注于评估它们在英文场景中的一般表现。这些数据集中的指令数量都在1K以内，综合性方面存在一定的局限性。
SuperCLUE[13] 扩大了评估内容的规模。它作为中文通用大型语言模型的全面评估基准，旨在评估当前中文大型语言模型的有效性。任务包括多轮开放式问答和客观多项选择问答，每月更新，具有重要的参考价值。

2、指令遵循能力，尤其是复杂指令遵循。

像 Vicuna Evaluation、AlpacaEval 和 BayLing-80 结合了各种类型的指令，评估模型在理解指令要求方面的泛化能力和容量。

CELLO[14] 从「复杂任务描述和复杂输入」两个角度评估模型遵循复杂指令的能力，增强了指令的复杂性。

2.6.2.2 考试领域

考试领域的评估数据集专门用于制定来自不同国家重要考试问题的指令。在这种情况下，大型语言模型扮演考生的角色，按照规定的指导方针回答查询。主要目标是评估LLMs在理解问题意图的细微差别和它们对考试相关知识的掌握程度。

GAOKAO-Bench[15]使用中国高考（中国全国大学入学考试）问题作为评估的基础，寻求评估LLMs在各个学科的熟练程度，包括10个学科。

AGIEval[16]扩大了查询的范围，设计了以人为为中心的测试基准，包括20个官方的、公共的和严格的入学和资格考试，包括高考、美国SAT、律师考试和国家公务员考试。

M3Exam[17] 集合了多模态、多语言和多层次的多项选择题集合，来源包括九个国家的小学、中学和高中考试的考试题目，这些国家的考试题目以不同的语言区分。

2.6.2.3 学科领域

学科领域的评估数据集全面评估了大型语言模型在不同学科领域的掌握程度，包括数学、法律、心理学等多个学科。

C-CLUE[18] 作为评估古典中文语言理解的基准，主要关注基于历史知识图谱的任务，如命名实体识别（NER）和关系抽取（RE）。这个数据集主要检验个别学科的熟练程度，但在多样性方面有所限制。

MMCU[20] 包括医学、法律、心理学和教育学等学科，以衡量中文语义理解。

SCIBENCH [21] 主要应用在大学级别的科学与工程领域，要求解决与数学、物理和化学相关的具有挑战性的主观问题。

TheoremQA[22] 将焦点缩小到数学、物理、金融和计算机科学与工程（CS & EE）的350个定理。

ARB[23] 评估LLMs在文本理解和领域特定推理方面的技能。这些问题深入到数学、物理、生物学、化学和法律等学科的深厚知识。

上述数据集专注于评估特定学科的熟练程度，规模较小。下面这些数据集旨在全面评估学科能力，涵盖广泛的学科。

ScienceQA[24]收集了自然科学、社会科学和语言学的26个子课程的多项选择题。

C-Eval[25]编译了52个不同学科的问题，分为四个难度级别，全面评估模型在中文环境下的综合学科能力。

CG-Eval[26]要求LLMs准确回答跨越六个主要类别的55个子学科问题，以自动评分。

LLMEVAL-3 [19]集中评估专业知识的熟练程度，功能生成的问题来自中国教育部概述的13个学术类别和50多个子类别。它引入了“题库考试”模式。

MMLU [27]评估从传统领域如数学和历史到专业领域如法律和伦理的学科，涵盖57个学科，难度级别从小学至专业。由于MMLU的内容是英文的，CMMLU（李等人，2023d）作为其中文版本来评估中文环境下的学科知识熟练程度，涵盖67个学科。

M3KE [28] 是针对中国教育体系，收集了从小学到大学的71个学科的多项选择题。

XiezhiBenchmark [29] 覆盖了创纪录的516个不同学科，达到了大约250K个问题。

总的来说，这些学科评估数据集在数据源方面有很高的相似性，主要来源于与各自学科相关的在线材料。此外，多项选择题格式有利于自动化评估，特别受到青睐。

2.6.2.4 自然语言理解的数据集

这一类评估数据集旨在全面评估大型语言模型在自然语言理解（NLU）任务中的多方面能力，涵盖从基本的语法结构理解到高级的语义推理和上下文处理。

MCTS [30] 和RAFT[31] 作为单个NLU任务的基准测试。前者是中文文本简化最广泛的评估数据集，而后者是文本分类的基准测试。大多数数据集包含多个NLU任务。

GLUE[32] 包含九个英文NLU任务，评估LLMs在情感分析、语义匹配和文本蕴含等任务上的表现。在GLUE的基础上，SuperGLUE[33] 提高了任务难度，反映了LLMs在更广泛的语言理解方面的表现。

为了评估模型在中文环境下的NLU能力，CLUE[34] 参考GLUE构建，包含九个中文NLU任务，评估LLMs在语义匹配、文本分类和阅读理解等任务上的表现。CUGE[35] 按语言-任务-数据集结构层次组织，使用21个子数据集评估LLMs在语言理解、信息检索、问答和语言生成方面的能力。SentEval[36] 汇总了21个子任务的NLU数据集。

2.6.2.5 推理评估数据集

推理评估数据集涵盖了多步推理、决策推理、演绎推理、数学推理和其他形式推理的多样化评估方向。

推理评估数据集旨在衡量大型语言模型在逻辑推理和推理任务方面的熟练程度。Chain-of-Thought Hub[37] 精选了八个开源数据集，并通过在数学、科学和符号等领域使用few-shot CoT提示来评估LLMs的多步推理能力。

Choice-75[38] 要求LLMs在各种给定情境中选择合适的决策解决方案，评估它们在决策推理方面的竞争力。

NeuLR[39] 评估演绎推理、归纳推理和溯因推理，强调LLMs在这些不同推理方向上的能力。

关于数学领域的推理能力评估，有TabMWP[40] 、LILA[41]和miniF2F_v1[42]这几个数据集

TabMWP数据集要求LLMs基于提供的文字和表格数据进行基于表格的问答和数学推理。LILA数据集作为数学推理的综合基准，评估各种数学技能，包括基础技能、代数、微积分等。miniF2F_v1数据集汇编了奥林匹克级别的数学问题，对LLMs的数学能力提出了重大挑战。

2.6.2.6 知识评估数据集

评估知识的数据集不仅衡量大型语言模型（LLMs）的知识保持能力，还评估额外的技能，如知识分析、学习新信息和知识归纳。

LLMEVAL-2 [43] 从外部数据库构建了一个跨12个领域的知识问题库。

LMExamQA[44] 根据所需知识水平对问题进行分类，包括记忆、理解和分析。

KoLA[45] 主要检验LLMs掌握和应用世界知识的熟练程度，根据知识的认知层次结构，分为记忆、理解、应用和创造四个类别。

作为评估LLMs掌握社会知识能力的基准，SocKET[46]将知识分类为幽默与讽刺、攻击性、情感、可信度和社会事实。虽然以前的数据库从现有知识的角度评估模型，但挑战在于评估模型对完全陌生新知识的学习能力。

ALCUNA是采用knowGen方法生成新知识生成的基准数据库ALCUNA[47]，用于评估和审查模型对新知识的理解、区分和关联能力。

2.6.2.7 长文本评估数据集

在长文本领域，著名数据集包括ZeroSCROLLS[48] 、L-Eval[49]、LongEval [49]和LooGLE[50]，它们都专注于评估长英文文本。

ZeroSCROLLS将不同来源的数据集标准化为一致的输入格式，平均长度为10,000词，用于评估10个自然语言任务。L-Eval作为长文本语言模型的全面评估套件，涵盖从4,000到60,000词的输入长度。它包括18个多领域任务，涉及长文档的推理、问答、摘要等。

LongEval引入了两个不同难度的任务，评估LLMs在5,000到16,000词令牌长度输入中的细粒度主题检索和行检索性能。

LooGLE专注于更具挑战性的任务，评估平均长度为20,000词的多信息检索和时间线重排序任务的性能。相比之下，LongBench[51] 包括14个英文任务、5个中文任务和2个代码任务，大多数任务的平均长度在5,000到15,000词令牌之间。尽管一些模型声称支持100,000+的上下文，但上述数据集在评估超过100,000词的长文本方面存在局限性。为了解决这个问题，InfiniteBench[52] 将中英文评估的平均长度增加到200,000词，并在12个评估任务中的10个新任务中引入，以填补评估超过100,000词长文本的空白。

2.6.2.8 工具评估数据集

这一类主要是衡量大型语言模型在使用工具和调用API方面的熟练程度。

API-Bank[53] 模拟真实世界场景，建立了一个包含53种常用工具的API库供LLMs调用。设计的任务涉及API调用，旨在评估模型在特定对话环境中有效使用API来满足用户需求的能力。

APIBench[54] 为评估目的而构建，从1,645个API文档中生成了16,450条指令。这些指令被格式化以适应LLM友好的聊天交互，并配备了评估脚本。

ToolBench[55] 作为工具操作的基准测试，涵盖了在现实世界任务中使用的各种软件工具。工具调用包括单步和多步动作生成，覆盖八个子任务，包括开放天气和网络商店。

2.6.2.9 Agent 评估数据集

Agent目前是十分热门的研究方向。专门针对代理的评估数据集集中于评估LLMs作为代理的能力。

AgentBench[56] 在英语环境中进行评估。它作为首个旨在评估作为代理的LLMs性能的基准测试，涵盖了八个不同的环境，并全面考察了LLMs作为独立代理的能力。

SuperCLUE-Agent[57] 在中文环境中进行评估。该数据集通过三个核心能力和十个基础任务，评估LLMs在中文环境中作为代理的能力，涵盖工具使用、任务规划以及短期和长期记忆等方面。

2.6.2.10 代码评估数据集

评估代码的数据集旨在衡量大型语言模型（LLMs）在处理编程相关任务方面的能力，包括代码解释、代码生成、代码修正和代码优化。这些数据集主要分为两类。

第一类是单任务评估。APPS[58] 作为代码生成的基准测试，专门评估生成Python代码的能力。其他数据集，如DS-1000[59] 、HumanEval[60] 、MTPB[61] 和ODEX[62] ，以不同形式探究代码生成能力。

DS-1000引入了与七个Python库相关的数据科学问题。HumanEval使用人工编写的编程问题来评估LLMs，这在一定程度上减少了数据泄露的担忧。MTPB要求LLMs在每一步合成一个子程序，需要考虑当前任务描述和先前步骤。ODEX扩展了自然语言的种类，使用英语、西班牙语、日语和俄语描述代码意图，评估LLMs在多语言描述下生成代码的能力。

此外，BIRD [63] 是一个大规模的数据库基准测试，用于文本到SQL（结构化查询语言）任务，与之前的流行数据集如Spider 相比，它缩小了学术研究与实际应用之间的差距，提高了难度水平。

第二类是多任务评估。CodeXGLUE[64] 根据输入输出对将代码能力分为四种类型：代码-代码、文本-代码、代码-文本和文本-文本。HumanEvalPack[65] 是HumanEval的扩展，涵盖六种编程语言和三种代码任务，包括代码修复、代码注释生成和代码生成。

2.6.2.11 法律评估数据集

法律评估数据集通过提供标准化的性能评估，推动法律LLMs的研究和开发。这些数据集可以根据它们所针对的语言环境进行分类。

LAiW[66] 和LawBench[67] 是为中文语言环境设计的。LAiW作为中文法律LLMs评估的基准，专注于13个基础任务，涵盖三个法律能力领域。它比较了LLMs在NLP基础能力、基础应用能力和复杂应用能力方面的表现。LawBench以中国法律体系为基准，评估LLMs在20个任务中的法律能力，这些任务模拟了知识记忆、理解和应用，与现实世界的应用密切相关。

在英语语言环境中，LegalBench[68] 和LexGLUE[69] 是相关的。LegalBench由跨学科专家协助构建，是一个包含六种法律推理类型和162个任务的法律推理基准。LexGLUE整合了开源的英文法律数据集，作为一个评估基准，检验法律问答和分类任务。

对于多语言环境，LEXTREME[70] 和SCALE[71] 是适用的。LEXTREME将18个与法律相关的任务从11个开源数据集中划分出来，涵盖了24种语言。SCALE在四个维度上挑战当前的LLMs：处理长文档、应用法律知识、多语言理解和多任务处理。该基准源自瑞士法律体系，涉及五种语言。

2.6.2.12 医疗评估数据集

医疗评估数据集专注于检验LLMs在医疗任务，如术语解释、疾病诊断和治疗建议等方面的综合能力。这使得可以比较不同医疗模型与专业医生之间的熟练程度差距。MultiMedQA[72] 作为医疗问答的评估基准，混合了多个开源数据集和专有数据集，以评估LLMs解决医疗问题的能力。QiZhenGPT-eval[73]专注于药品适应症评估，要求LLMs确定给定药物适用的疾病。然而，单一任务数据集在评估维度上过于限制，可能无法反映其他医疗能力。因此，逐渐提出了各种综合数据集。

CBLUE[74] 是中文医疗语言理解的评估数据集，展示了使用真实医疗数据的五个医疗任务。它评估LLMs在医疗文本信息提取和医疗问答方面的能力。CMB[75] 的设计基于中文语言和文化框架，从中式医疗考试和复杂临床诊断的角度评估LLMs。HuaTuo26M-test[76] 是从多个来源随机抽样的，包括医学百科全书和知识图谱，提供了多样化的任务类型。PromptCBLUE[77] 将16种不同的医疗场景中的NLP任务转换为评估格式，形成了首个系统化的中文医疗场景基准。

2.6.2.13 金融评估数据集

金融评估数据集，与前面提到的法律和医疗评估数据集类似，专注于金融领域相关知识，评估大型语言模型处理金融文本和执行金融任务的表现。

BBF-CFLEB[78] 包含六个子数据集，用于金融任务，从多个角度策略性地评估金融模型的语言理解和语言生成能力。FinancelQ[79] 和FinEval[80] 都强调金融场景中的知识和推理能力，包含多个金融主题的多项选择题，以评估LLMs的金融知识。虽然前面的数据集针对中文环境，但FLUE[81] 是面向英语的测试基准，整合了六个金融NLP数据集，专注于金融领域的语言理解。

FinBen[82] 也是一个面向英语的金融领域基准数据集，用于评估LLMs在金融领域的能力。它汇集了35个现有数据集，涵盖了23个金融任务，分为三个难度级别：基础任务、高级认知参与和通用智能。

2.6.3 评估数据集的数据分布

在《Datasets for Large Language Models: A Comprehensive Survey》[1]这篇论文中，作者对当前的指令微调数据集做了统计与分析，整体得出以下6个结论：

（1）评估数据集的数量呈现出明显的上升趋势。具体来说，在2023年，评估数据集的数量显著增加，这反映了随着LLMs的快速迭代和模型性能的提升，需要多样化的数据集来保持同步。
在这里插入图片描述

（2）评估数据集许可证的分布：Apache-2.0和MIT这样的开放许可证提供的灵活性，对于评估数据集的广泛使用和共享至关重要，这对于推动相关研究的发展至关重要。
在这里插入图片描述

（3）大多数评估数据集的规模在0-100K的范围内，其中包含少于10K样本的数据集占总数的56.4%。这表明许多任务可以通过相对较小的数据集进行有效评估，或许主要是出于成本考虑。然而，仍有少数数据集的规模超过了1M，主要来源于网络抓取或开源数据集的整合。
在这里插入图片描述

（4）手动构建和开源数据集的整合是创建评估数据集的主要方法。手动构建通常因为精确性和与特定领域的相关性而被优先选择，而开源数据集通常用于评估的通用基准。使用模型生成的数据进行评估不太常见，因为人们担心问题的真实性和答案的准确性，通常将其作为补充方法。

在这里插入图片描述

（5）英语数据集是最普遍的，中文数据集次之，这反映了评估LLMs在这两种语言任务中的性能的关注。尽管也有涵盖其他语言的数据集，但对于资源较少的少数民族语言的资源明显有限。
在这里插入图片描述

（6）包括多个学科和任务类型的评估数据集很普遍，研究社区特别关注模型的通用性和广泛知识。数据集涵盖了传统的指令、知识领域、社会规范和几个流行的垂直领域。同时，评估数据集的领域分布仍然呈现出长尾模式，像电子商务和地球科学这样的小众领域评估资源有限。另外，像古代文本和文化这样的领域目前缺乏评估基准。
在这里插入图片描述

（7）主观问题，尤其是与自然语言理解（NLU）相关的问题，在评估数据集中占据主导地位。客观问题的数据集占少数，包括多项选择和填空格式。就评估方法而言，基于代码的评估的广泛使用归因于其适用于客观问题和简单的主观任务，在效率和一致性方面具有优势。相反，人工评估不适合广泛的任务和客观问题，由于成本考虑，因此不常使用。模型评估在一定程度上结合了基于代码的评估和人工评估的优势，可能正在成为未来主要的评估方法。
在这里插入图片描述

注：本篇的大部分内容参考自《Datasets for Large Language Models: A Comprehensive Survey》[1]这篇论文，感谢大佬们的系统整理。

参考文献

[1]Liu Y, Cao J, Liu C, et al. Datasets for large language models: A comprehensive survey[J]. arXiv preprint arXiv:2402.18041, 2024.

[2] Lin CY (2004) ROUGE: A package for automatic evaluation of summaries. In: Text Summarization Branches Out. ACL, Barcelona, Spain, pp 74–81

[3] https://huggingface.co/spaces/evaluate-metric/exact match

[4] https://libguides.library.kent.edu/SPSS/PearsonCorr

[5] https://github.com/CMKRG/QiZhenGPT/tree/main/data/eval

[6] https://github.com/jeinlee1991/chinese-llm-benchmark

[7] Xu L, Li A, Zhu L, Xue H, Zhu C, Zhao K, et al (2023e) SuperCLUE: A comprehensive Chinese large language model benchmark. arXiv preprint arXiv:2307.15020

[8] https://github.com/lm-sys/vicuna-blog-eval

[9] Dubois Y, Li X, Taori R, Zhang T, Gulrajani I, Ba J, et al (2023) AlpacaFarm: A simulation framework for methods that learn from human feedback. arXiv preprint arXiv:2305.14387

[10] Zhang S, Fang Q, Zhang Z, Ma Z, Zhou Y, Huang L, et al (2023h) BayLing: Bridging cross-lingual alignment and instruction following through interactive translation for large language models. arXiv preprint arXiv:2306.10968

[11] Ji Y, Deng Y, Gong Y, Peng Y, Niu Q, Zhang L, et al (2023b) Exploring the impact of instruction data scaling on large language models: An empirical study on real-world use cases. arXiv preprint arXiv:2303.14742

[12] Zheng L, Chiang WL, Sheng Y, Zhuang S, Wu Z, Zhuang Y, et al (2023b) Judging LLM-as-a-judge with MT-bench and Chatbot Arena. In: Thirty-seventh Conference on Neural Information Processing Systems Datasets and Benchmarks Track, pp 1–29

[13] Xu L, Li A, Zhu L, Xue H, Zhu C, Zhao K, et al (2023e) SuperCLUE: A comprehensive Chinese large language model benchmark. arXiv preprint arXiv:2307.15020

[14] He Q, Zeng J, Huang W, Chen L, Xiao J, He Q, et al (2023b) Can large language models understand real-world complex instructions? arXiv preprint arXiv:2309.09150

[18] https://github.com/jizijing/C-CLUE

[19] https://github.com/llmeval/llmeval-3

[20] Zeng H (2023) Measuring massive multitask Chinese understanding. arXiv preprint arXiv:2304.12986

[21] Wang X, Hu Z, Lu P, Zhu Y, Zhang J, Subramaniam S, et al (2023d) SCIBENCH: Evaluating college-level scientific problem-solving abilities of large language models. arXiv preprint arXiv:2307.10635

[22] Chen W, Yin M, Ku M, Lu P, Wan Y, Ma X, et al (2023b) TheoremQA: A theoremdriven question answering dataset. In: Bouamor H, Pino J, Bali K (eds) Proceedings of the 2023 Conference on Empirical Methods in Natural Language Processing. ACL, Singapore, pp 7889–7901, https://doi.org/10.18653/v1/2023.emnlp-main.489

[23] Sawada T, Paleka D, Havrilla A, Tadepalli P, Vidas P, Kranias A, et al (2023) ARB: Advanced reasoning benchmark for large language models. arXiv preprint arXiv:2307.13692

[24] Lu P, Mishra S, Xia T, Qiu L, Chang KW, Zhu SC, et al (2022) Learn to explain: Multimodal reasoning via thought chains for science question answering. In: Koyejo S, Mohamed S, Agarwal A, Belgrave D, Cho K, Oh A (eds) Advances in Neural Information Processing Systems, vol 35. Curran Associates, Inc., pp 2507–2521

[25] Huang Y, Bai Y, Zhu Z, Zhang J, Zhang J, Su T, et al (2023c) C-Eval: A multi-level multi-discipline Chinese evaluation suite for foundation models. In: Thirty-seventh Conference on Neural Information Processing Systems Datasets and Benchmarks Track, pp 1–20

[26] Zeng H, Xue J, Hao M, Sun C, Ning B, Zhang N (2023b) Evaluating the generation capabilities of large Chinese language models. arXiv preprint arXiv:2308.04823

[27] Hendrycks D, Burns C, Basart S, Zou A, Mazeika M, Song D, et al (2021b) Measuring massive multitask language understanding. In: International Conference on Learning Representations, pp 1–27

[28] Liu C, Jin R, Ren Y, Yu L, Dong T, Peng X, et al (2023a) M3KE: A massive multi-level multi-subject knowledge evaluation benchmark for Chinese large language models. arXiv preprint arXiv:2305.10263

[29] Gu Z, Zhu X, Ye H, Zhang L, Wang J, Jiang S, et al (2023) Xiezhi: An everupdating benchmark for holistic domain knowledge evaluation. arXiv preprint arXiv:2306.05783

[30] Chong R, Lu L, Yang L, Nie J, Zhou S, Li Y, et al (2023) MCTS: A multi-reference Chinese text simplification dataset. arXiv preprint arXiv:2306.02796

[31] Alex N, Lifland E, Tunstall L, Thakur A, Maham P, Riedel CJ, et al (2021) RAFT: A real-world few-shot text classification benchmark. In: Thirty-fifth Conference on Neural Information Processing Systems Datasets and Benchmarks Track (Round 2), pp 1–12

[32] Wang A, Singh A, Michael J, Hill F, Levy O, Bowman S (2018) GLUE: A multi-task benchmark and analysis platform for natural language understanding. In: Linzen T, Chrupa la G, Alishahi A (eds) Proceedings of the 2018 EMNLP Workshop BlackboxNLP: Analyzing and Interpreting Neural Networks for NLP. ACL, Brussels, Belgium, pp 353–355, https://doi.org/10.18653/v1/W18-5446

[33] Wang A, Pruksachatkun Y, Nangia N, Singh A, Michael J, Hill F, et al (2019) SuperGLUE: A stickier benchmark for general-purpose language understanding systems. In: Proceedings of the 33rd International Conference on Neural Information Processing Systems. Curran Associates Inc., Red Hook, NY, USA, pp 3266–3280

[34] Xu L, Hu H, Zhang X, Li L, Cao C, Li Y, et al (2020b) CLUE: A Chinese language understanding evaluation benchmark. In: Scott D, Bel N, Zong C (eds) Proceedings of the 28th International Conference on Computational Linguistics. International Committee on Computational Linguistics, Barcelona, Spain (Online), pp 4762–4772, https://doi.org/10.18653/v1/2020.coling-main.419

[35] Yao Y, Dong Q, Guan J, Cao B, Zhang Z, Xiao C, et al (2021) CUGE: A Chinese language understanding and generation evaluation benchmark. arXiv preprint arXiv:2112.13610

[36] Conneau A, Kiela D (2018) SentEval: An evaluation toolkit for universal sentence representations. In: Calzolari N, Choukri K, Cieri C, Declerck T, Goggi S, Hasida K, et al (eds) Proceedings of the Eleventh International Conference on Language Resources and Evaluation (LREC 2018). European Language Resources Association (ELRA), Miyazaki, Japan, pp 1699–1704

[37] Fu Y, Ou L, Chen M, Wan Y, Peng H, Khot T (2023) Chain-of-Thought Hub: A continuous effort to measure large language models’ reasoning performance. arXiv preprint arXiv:2305.17306

[38] Hou ZJ, Zhang L, Callison-Burch C (2023) Choice-75: A dataset on decision branching in script learning. arXiv preprint arXiv:2309.11737

[39] Xu F, Lin Q, Han J, Zhao T, Liu J, Cambria E (2023c) Are large language models really good logical reasoners? A comprehensive evaluation from deductive, inductive and abductive views. arXiv preprint arXiv:2306.09841

[40] Lu P, Qiu L, Chang KW, Wu YN, Zhu SC, Rajpurohit T, et al (2023b) Dynamic prompt learning via policy gradient for semi-structured mathematical reasoning. In: The Eleventh International Conference on Learning Representations, pp 1–26

[41] Mishra S, Finlayson M, Lu P, Tang L, Welleck S, Baral C, et al (2022a) LILA: A unified benchmark for mathematical reasoning. In: Goldberg Y, Kozareva Z, Zhang Y (eds) Proceedings of the 2022 Conference on Empirical Methods in Natural Language Processing. ACL, Abu Dhabi, United Arab Emirates, pp 5807–5832, https://doi.org/10.18653/v1/2022.emnlp-main.392

[42] Zheng K, Han JM, Polu S (2022) MiniF2F: A cross-system benchmark for formal Olympiad-level mathematics. In: International Conference on Learning Representations, pp 1–11

[43] Zhang M, Zhang Y, Liu S, Yuan H, Wang J, Dong Y, et al (2023e) LLMEval-2. https://github.com/llmeval/llmeval-2

[44] Yu J, Wang X, Tu S, Cao S, Zhang-Li D, Lv X, et al (2023a) KoLA: Carefully benchmarking world knowledge of large language models. arXiv preprint arXiv:2306.09296

[45] Yu J, Wang X, Tu S, Cao S, Zhang-Li D, Lv X, et al (2023a) KoLA: Carefully benchmarking world knowledge of large language models. arXiv preprint arXiv:2306.09296

[46] Choi M, Pei J, Kumar S, Shu C, Jurgens D (2023) Do LLMs understand social knowledge? Evaluating the sociability of large language models with SocKET benchmark. In: Bouamor H, Pino J, Bali K (eds) Proceedings of the 2023 Conference on Empirical Methods in Natural Language Processing. ACL, Singapore, pp 11370–11403, https://doi.org/10.18653/v1/2023.emnlp-main.699

[47] Yin X, Huang B, Wan X (2023b) ALCUNA: Large language models meet new knowledge. In: Bouamor H, Pino J, Bali K (eds) Proceedings of the 2023 Conference on Empirical Methods in Natural Language Processing. ACL, Singapore, pp 1397–1414, https://doi.org/10.18653/v1/2023.emnlp-main.87

[48] Shaham U, Ivgi M, Efrat A, Berant J, Levy O (2023) ZeroSCROLLS: A zero-shot benchmark for long text understanding. arXiv preprint arXiv:2305.14196

[49] An C, Gong S, Zhong M, Li M, Zhang J, Kong L, et al (2023) L-Eval: Instituting standardized evaluation for long context language models. arXiv preprint arXiv:2307.11088

[50] Li J, Wang M, Zheng Z, Zhang M (2023g) LooGLE: Can long-context language models understand long contexts? arXiv preprint arXiv:2311.04939

[51] Bai Y, Lv X, Zhang J, Lyu H, Tang J, Huang Z, et al (2023b) Longbench: A bilingual, multitask benchmark for long context understanding. arXiv preprint arXiv:2308.14508

[52] Zhang X, Chen Y, Hu S, Wu Q, Chen J, Xu Z, et al (2023j) InfiniteBench: 128k long-context benchmark for language models. https://github.com/OpenBMB/InfiniteBench?tab=readme-ov-file

[53] Li M, Zhao Y, Yu B, Song F, Li H, Yu H, et al (2023i) API-Bank: A comprehensive benchmark for tool-augmented LLMs. In: Bouamor H, Pino J, Bali K (eds) Proceedings of the 2023 Conference on Empirical Methods in Natural Language Processing. ACL, Singapore, pp 3102–3116, https://doi.org/10.18653/v1/2023.emnlp-main.187

[54] Patil SG, Zhang T, Wang X, Gonzalez JE (2023) Gorilla: Large language model connected with massive APIs. arXiv preprint arXiv:2305.15334

[55] Xu Q, Hong F, Li B, Hu C, Chen Z, Zhang J (2023f) On the tool manipulation capability of open-source large language models. arXiv preprint arXiv:2305.16504

[56] Liu X, Yu H, Zhang H, Xu Y, Lei X, Lai H, et al (2023f) AgentBench: Evaluating LLMs as agents. arXiv preprint arXiv:2308.03688

[57] https://github.com/CLUEbenchmark/SuperCLUE-Agent

[58] Hendrycks D, Basart S, Kadavath S, Mazeika M, Arora A, Guo E, et al (2021a) Measuring coding challenge competence with APPS. In: Vanschoren J, Yeung S (eds) Proceedings of the Neural Information Processing Systems Track on Datasets and Benchmarks, vol 1. Curran, pp 1–11

[59] Lai Y, Li C, Wang Y, Zhang T, Zhong R, Zettlemoyer L, et al (2023) DS-1000: A natural and reliable benchmark for data science code generation. In: Krause A, Brunskill E, Cho K, Engelhardt B, Sabato S, Scarlett J (eds) Proceedings of the 40th International Conference on Machine Learning, vol 202. PMLR, pp 18319–18345

[60] Chen M, Tworek J, Jun H, Yuan Q, Pinto HPdO, Kaplan J, et al (2021) Evaluating large language models trained on code. arXiv preprint arXiv:2107.03374

[61] Nijkamp E, Pang B, Hayashi H, Tu L, Wang H, Zhou Y, et al (2023) CodeGen: An open large language model for code with multi-turn program synthesis. In: The Eleventh International Conference on Learning Representations, pp 1–25

[62] Wang Z, Zhou S, Fried D, Neubig G (2023h) Execution-based evaluation for opendomain code generation. In: Bouamor H, Pino J, Bali K (eds) Findings of the Association for Computational Linguistics: EMNLP 2023. ACL, Singapore, pp 1271–1290, https://doi.org/10.18653/v1/2023.findings-emnlp.89

[63] Li J, Hui B, QU G, Yang J, Li B, Li B, et al (2023f) Can LLM already serve as a database interface? A Big bench for large-scale database grounded text-to-SQLs. In: Thirty-seventh Conference on Neural Information Processing Systems Datasets and Benchmarks Track, pp 1–28

[64] Lu S, Guo D, Ren S, Huang J, Svyatkovskiy A, Blanco A, et al (2021) CodeXGLUE: A machine learning benchmark dataset for code understanding and generation. In: Thirty-fifth Conference on Neural Information Processing Systems Datasets and Benchmarks Track (Round 1), pp 1–16

[65] Muennighoff N, Liu Q, Zebaze A, Zheng Q, Hui B, Zhuo TY, et al (2023a) OctoPack: Instruction tuning code large language models. In: NeurIPS 2023 Workshop on Instruction Tuning and Instruction Following, pp 1–59

[66] Dai Y, Feng D, Huang J, Jia H, Xie Q, Zhang Y, et al (2023) LAiW: A Chinese legal large language models benchmark (a technical report). arXiv preprint arXiv:2310.05620

[67] Fei Z, Shen X, Zhu D, Zhou F, Han Z, Zhang S, et al (2023) LawBench: Benchmarking legal knowledge of large language models. arXiv preprint arXiv:2309.16289

[68] Guha N, Nyarko J, Ho DE, Re C, Chilton A, Narayana A, et al (2023) LegalBench: A collaboratively built benchmark for measuring legal reasoning in large language models. In: Thirty-seventh Conference on Neural Information Processing Systems Datasets and Benchmarks Track, pp 1–157

[69] Chalkidis I, Jana A, Hartung D, Bommarito M, Androutsopoulos I, Katz D, et al (2022) LexGLUE: A benchmark dataset for legal language understanding in English. In: Muresan S, Nakov P, Villavicencio A (eds) Proceedings of the 60th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). ACL, Dublin, Ireland, pp 4310–4330, https://doi.org/10.18653/v1/2022.acl-long.297

[70] Niklaus J, Matoshi V, Rani P, Galassi A, St¨urmer M, Chalkidis I (2023) LEXTREME: A multi-lingual and multi-task benchmark for the legal domain. In: Bouamor H, Pino J, Bali K (eds) Findings of the Association for Computational Linguistics: EMNLP 2023. ACL, Singapore, pp 3016–3054, https://doi.org/10.18653/v1/2023.findings-emnlp.200

[71] Rasiah V, Stern R, Matoshi V, St¨urmer M, Chalkidis I, Ho DE, et al (2023) SCALE: Scaling up the complexity for advanced language model evaluation. arXiv preprint arXiv:2306.09237

[72] Singhal K, Azizi S, Tu T, Mahdavi SS, Wei J, Chung HW, et al (2023) Large language models encode clinical knowledge. Nature 620(7972):172–180

[73] https://github.com/CMKRG/QiZhenGPT/tree/main/data/eval

[74] Zhang N, Chen M, Bi Z, Liang X, Li L, Shang X, et al (2022) CBLUE: A Chinese biomedical language understanding evaluation benchmark. In: Muresan S, Nakov P, Villavicencio A (eds) Proceedings of the 60th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). ACL, Dublin, Ireland, pp 7888–7915, https://doi.org/10.18653/v1/2022.acl-long.544

[75] Wang X, Chen GH, Song D, Zhang Z, Chen Z, Xiao Q, et al (2023c) CMB: A comprehensive medical benchmark in Chinese. arXiv preprint arXiv:2308.08833

[76] Li J, Wang X, Wu X, Zhang Z, Xu X, Fu J, et al (2023h) Huatuo-26M, a large-scale Chinese medical QA dataset. arXiv preprint arXiv:2305.01526

[77] https://github.com/michael-wzhu/PromptCBLUE

[78] Lu D, Liang J, Xu Y, He Q, Geng Y, Han M, et al (2023a) BBT-Fin: Comprehensive construction of Chinese financial domain pre-trained language model, corpus and benchmark. arXiv preprint arXiv:2302.09432

[79] https://github.com/Duxiaoman-DI/XuanYuan/tree/main/FinanceIQ

[80] Zhang L, Cai W, Liu Z, Yang Z, Dai W, Liao Y, et al (2023d) FinEval: A Chinese financial domain knowledge evaluation benchmark for large language models. arXiv preprint arXiv:2308.09975

[81] Shah R, Chawla K, Eidnani D, Shah A, Du W, Chava S, et al (2022) When FLUE meets FLANG: Benchmarks and large pretrained language model for financial domain. In: Goldberg Y, Kozareva Z, Zhang Y (eds) Proceedings of the 2022 Conference on Empirical Methods in Natural Language Processing. ACL, Abu Dhabi, United Arab Emirates, pp 2322–2335, https://doi.org/10.18653/v1/2022.emnlp-main.148

[82] Xie Q, Han W, Chen Z, Xiang R, Zhang X, He Y, et al (2024) The FinBen: An holistic financial benchmark for large language models. arXiv preprint arXiv:2402.12659

[83] Papineni K, Roukos S, Ward T, Zhu WJ (2002) BLEU: A method for automatic evaluation of machine translation. In: Isabelle P, Charniak E, Lin D (eds) Proceedings of the 40th Annual Meeting of the Association for Computational Linguistics. ACL, Philadelphia, Pennsylvania, USA, pp 311–318, https://doi.org/10.3115/1073083.1073135