论文:Measuring Massive Multitask Language Understanding
⭐⭐⭐⭐
ICLR 2021, arXiv:2009.03300
Code: GitHub
论文速读
本文提出了一个 benchmark:MMLU,一个覆盖了 57 个 subjects 的多项选择题的数据集。
数据集的 question 数量:一共有 15908 个 questions,并被分为 dev、val、test 三个 split set:
- dev set:用于做 few-shots,每个 subject 有 5 个 questions
- val set:用于选择 hyper-parameters,由 1540 个 questions
- test set:包含 14079 个 questions,每个 subject 至少包含 100 个 test examples
数据集设计的 subjects:包含 57 个 subjects,涉及到 STEM、人文、社科等问题
- 人文:人文学科是一组运用定性分析和分析方法而不是科学实证方法的学科。包括法律、哲学、历史、道德等。
- 社科:社科包括研究人类行为和社会的分支。包括经济学、社会学、政治学、地理学、心理学等。
- STEM:包括 Scie