【LLM 评估】MMLU benchmark：用于衡量 LM 的多任务语言理解能力

最新推荐文章于 2025-03-29 10:26:23 发布

yubinCloud

最新推荐文章于 2025-03-29 10:26:23 发布

阅读量3.6k

点赞数 11

分类专栏： LLM Research 文章标签：人工智能语言模型自然语言处理 LLM 评估

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_45668004/article/details/140065791

版权

论文：Measuring Massive Multitask Language Understanding

⭐⭐⭐⭐

ICLR 2021, arXiv:2009.03300

Code: GitHub

论文速读

本文提出了一个 benchmark：MMLU，一个覆盖了 57 个 subjects 的多项选择题的数据集。

数据集的 question 数量：一共有 15908 个 questions，并被分为 dev、val、test 三个 split set：

dev set：用于做 few-shots，每个 subject 有 5 个 questions
val set：用于选择 hyper-parameters，由 1540 个 questions
test set：包含 14079 个 questions，每个 subject 至少包含 100 个 test examples

数据集设计的 subjects：包含 57 个 subjects，涉及到 STEM、人文、社科等问题

人文：人文学科是一组运用定性分析和分析方法而不是科学实证方法的学科。包括法律、哲学、历史、道德等。
社科：社科包括研究人类行为和社会的分支。包括经济学、社会学、政治学、地理学、心理学等。
STEM：包括 Scie

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。