C-EVAL: A Multi-Level Multi-Discipline Chinese Evaluation Suite for Foundation Models
前言
一篇关于评估大模型中文能力的benchmark工作,虽然从benchmark的设计角度来看没有额外的新意,但是从故事性和切入点来说都是一个非常不错的工作。此外,文末的Conclusion部分我还对benchmark的设计原则进行了讨论,感兴趣的朋友可以直接跳到文章最后部分查看。Paper | https://arxiv.org/abs/2305.08322 |
---|---|
Huggingface | https://huggingface.co/datasets/ceval/ceval-exam |
Code | https://github.com/hkust-nlp/ceval |
From | NeurIPS 2023 |
Abstract
C-EVAL是第一个全面的中文benchmark用于评估LLMs在中文语境下的基础储备和推理能力。C-EVAL包含四个不同等级的多选问题:中学,高中,大学和职业。这些问题涵盖了来自人文科学到理工科学等52个不同学科领域。此外C-EVAL还附带了C-EVAL HARD,这是更具有挑战的课题,需要高级的推理能力。作者对当前先进的LLMs在C-EVAL上进行评估,结果显示最好的模型GPT-4也只能达到60%的准确率,表明现有模型仍有很大的提升空间。
Motivation
benchmark评估对AI发展至关重要,随着LLMs的兴起,传统的NLP benchmarks已经过时,需要新的benchmarks来评估LLMs在各个方面的能力。然而现有新的benchmarks主要针对于英语,对其他语言中LLMs的能力评估有限。
如今已经有很多大模型拥有中文能力,但是该领域的评估还是明显滞后,当前最好的benchmark只有CLUE和GLUE。作者认为