目前自然语言处理领域有众多权威评测,其中一些较为知名的包括智源研究院举办的大模型评测。2024 年 5 月 17 日,智源研究院推出智源评测体系,发布国内外 140 余个开源和商业闭源的语言及多模态大模型全方位能力评测结果。本次智源评测分别从主观、客观两个维度考察了语言模型的简单理解、知识运用、推理能力、数学能力、代码能力、任务解决、安全与价值观七大能力;针对多模态模型则主要评估了多模态理解和生成能力。
此外,复旦大学 NLP(自然语言处理)实验室 LLMEVAL 团队发布了 2024 年高考数学大模型评测结果,其中讯飞星火和通义千问表现突出,分别在高考数学新 I 卷和高考数学新 II 卷中分列前两名,而 GPT-4o 则在两份考卷的评测中均位列第三。
在国际 NLP 领域,有大名鼎鼎的数据集 GLUE 和 SuperGLUE,非常权威,OpenAI、谷歌等的大模型都在上面评测,极大推动了 NLP 领域的发展。而中文通用大模型基准(SuperCLUE)评测公布的最新结果中,GPT-4 遥遥领先,国内成绩最好的是科大讯飞的星火认知大模型。但需要注意的是,SuperCLUE 评测的发起方为 Chinese GLUE 组织(简称 CLUE),CLUE 是仿照 GLUE 由国内民间组织的评测,权威度和影响力与 GLUE 相比差很远。
在大模型的评测中,不同的评测体系会有不同的侧重点和结果。随着自然语言处理技术的不断发展,相信会有更多更权威的评测出现,以推动该领域的持续进步。
GLUE 评测的侧重点是什么
GLUE 评测(General Language Understanding Evaluation)由纽约大学、华盛顿大学和谷歌 DeepMind 共同举办,旨在评测模型在通用自然语言理