C-EVAL: A Multi-Level Multi-Discipline Chinese Evaluation Suite for Foundation Models翻译

摘要

迫切需要一个新的NLP评测基准,以和大型语言模型(LLM)的快速发展保持对齐。我们提出了C-EVAL,这是旨在评估基础模型先进知识和推理能力的首个全面的中文评测套件。C-EVAL包括四个不同难度级别的多项选择问题:中学,高中,大学和专业测试。这些问题涵盖了52个不同的学科,从人文到科学和工程。C-EVAL还包含了一个C-EVAL Hard,这是C-EVAL中非常具有挑战性的子集,需要更高的推理能力才能解决。我们在C-Eval上对目前最先进的LLM进行了全面评估,包括英语和中文模型。结果表明,只有GPT-4可以达到60%以上的平均准确性,这表明当前LLM仍有很大的改进空间。我们预计C-EVAL将为中国用户提供有助于分析基础模型的重要优势和缺点,并能促进这些模型发展和增长的基准。

1.介绍

在这里插入图片描述
  评估基准是AI开发的核心角色。虽然传统的NLP基准被设计用于衡量特定和相对简单的能力,但大语言模型(LLM)或基础模型已经展示了各种新功能,并将评估重点转移到了更通用和复杂的技能上,例如广泛的世界知识和复杂的推理技能。为了与LLM的新时代保持对齐,最近提出了一些新的测试基准,以探究各种LLM的能力。例如,MMLU,BIG-bench和HELM基准试图整合各种NLP任务以进行整体评估。其他一些基准特别关注随模型尺寸而出现的高级LLM能力,例如推理,难数学问题求解和编码。在传统的NLP基准正在成为历史的同时,这些新的基准在最近的研究中被广泛使用以评估新LLM。
  但是,目前这些基准主要针对英语,从而限制了LLM在其他语言中能力的评估。在这项工作中,我们专注于在中文环境中评估基础模型的高级能力,这是世界上说话最广泛的语言之一。尽管最近有不断出现的强大中文LLM,例如GLM-130B,Wenxin Yiyan和Moss,但相应的评估显着落后,例如CLUE Benchmark,GLUE的中文版本。我们需要强调,仅像OpenAI一样翻译英语基准,即使使用完美的翻译也无法达到目标,因为针对中文环境使用的LLM应该在中文用户感兴趣的知识上进心评估,例如中国文化,历史和法律以及中国社会中独特的其他能力。相反,英文基准倾向于对训练它们地区知识表现出地理偏见。
  为了缩小中文LLM开发与评估之间的差距,我们提出了C-EVAL,这是第一个全面的中文评估套件,旨在彻底评估LLM在中文环境中的高级知识和推理能力。C-EVAL由13948条多项选择的考试问题组成,涵盖了52个不同学科,从人文到科学和工程,如图1所示。C-EVAL包括四个不同难度级别的多项选择问题:中学,高中,大学和专业测试。除了C-EVAL外,我们还引入了 C-EVAL HARD 以作为附加基准,这是C-EVAL中非常具有挑战性的部分,需要非常优秀的推理能力来求解,例如高级数学和大学物理。值得注意的是,C-EVAL HARD是GPT-4仍需努力的高级推理基准之一,其精度为54.9%。与广泛使用的GSM8K英语推理基准相比,C-EVAL HARD要复杂得多,该基准主要涵盖基本数字推理。我们认为,C-EVAL HARD与English MATH基准在难度上相当,这是该级别上的第一个中文基准。
  我们进行了实验,以在C-EVAL评估目前先进LLM在纯回答和思维链情况下的性能。结果表明,GPT-4是唯一平均准确率超过60%的模型。但是,其68.7%的准确率表明当前LLM仍有很大的改进空间。尽管不是专门针对中文数据量身定制的,但GPT-4,ChatGPT和Claude还是成为C-EVAL的前三名。在研究了LLM的重点是中文的结果后,我们发现,尽管有些模型设法通过ChatGPT缩小中文知识测试的差距,但获得推理能力似乎更具挑战性。特别是在C-EVAL HARD上,大多数模型只能保留接近随机的精度。除了整体基准集合,我们还设想C-EVAL的其子集可以单独使用来评估用户感兴趣的某些模型的能力,并分析基础模型的重要优势和局限性。我们希望C-EVAL可以指导开发人员从多个维度了解其模型的能力,并促进中文用户的基础模型的增长。

2.The C-EVAL Evaluation Suite

2.1 Design Principle

2.2 Data Collection

在这里插入图片描述

2.3 C-EVAL HARD

2.4 Evaluation

3.Experiment

3.2 Models

在这里插入图片描述

3.3 Results

在这里插入图片描述
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值