大模型评测数据集：MMLU、MMCU、C-Eval

u013250861

已于 2024-02-14 13:46:10 修改

阅读量9.8k

点赞数 1

分类专栏： # LLM/部署&推理 # LLM/评测文章标签：人工智能

于 2023-08-11 01:07:13 首次发布

本文链接：https://blog.csdn.net/u013250861/article/details/132222617

版权

LLM/部署&推理同时被 2 个专栏收录

68 篇文章 ¥19.90 ¥99.00

订阅专栏

超级会员免费看

LLM/评测

42 篇文章 ¥9.90 ¥99.00

订阅专栏

超级会员免费看

甲骨易AI研究院推出MMCU数据集，用于评测大语言模型对中文的理解能力，填补中文大模型能力测试空白。同时，C-Eval数据集作为中文知识和推理型测试集，包含13948道题目，覆盖人文、社科、理工等多个学科，旨在助力中文大模型的研发与进步。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

面对国内大语言模型万箭齐发的局面，如何更好地提升大语言模型对中文的理解能力，更好地服务于全球的中文用户，甲骨易AI研究院首创性地推出了高质量中文评测数据集——一款名为“超越”(Massive Multitask Chinese Understanding，简称MMCU)的大规模的多任务测试数据集，填补了中文大语言模型能力测试缺失的一大空白。

ChatGPT 的出现，使中文社区意识到与国际领先水平的差距。近期，中文大模型研发如火如荼，但中文评价基准却很少。在 OpenAI GPT 系列 / Google PaLM 系列 / DeepMind Chinchilla 系列 / Anthropic Claude 系列的研发过程中，MMLU / MATH / BBH 这三个数据集发挥了至关重要的作用，因为它们比较全面地覆盖了模型各个维度的能力。最值得注意的是 MMLU 这个数据集，它考虑了 57 个学科，从人文到社科到理工多个大类的综合知识能力。DeepMind 的 Gopher 和 Chinchilla 这两个模型甚至只看 MMLU 的分数，因此我们想要构造一个中文的，有足够区分度的，

了解本专栏

超级会员免费看