【LLM 评估】MMLU benchmark:用于衡量 LM 的多任务语言理解能力

论文:Measuring Massive Multitask Language Understanding

⭐⭐⭐⭐

ICLR 2021, arXiv:2009.03300

Code: GitHub

论文速读

本文提出了一个 benchmark:MMLU,一个覆盖了 57 个 subjects 的多项选择题的数据集。

数据集的 question 数量:一共有 15908 个 questions,并被分为 dev、val、test 三个 split set:

  • dev set:用于做 few-shots,每个 subject 有 5 个 questions
  • val set:用于选择 hyper-parameters,由 1540 个 questions
  • test set:包含 14079 个 questions,每个 subject 至少包含 100 个 test examples

数据集设计的 subjects:包含 57 个 subjects,涉及到 STEM、人文、社科等问题

  • 人文:人文学科是一组运用定性分析和分析方法而不是科学实证方法的学科。包括法律、哲学、历史、道德等。
  • 社科:社科包括研究人类行为和社会的分支。包括经济学、社会学、政治学、地理学、心理学等。
  • STEM:包括 Scie
### Llama模型在MMLU基准测试上的表现 Llama模型展示了强大的多选题解答能力,在多个基准测试中表现出色,尤其是在MMLU (Multi-choice Multi-hop Logical Reasoning Understanding) 基准测试上[^3]。此基准涵盖了广泛的学科领域,包括科学、社会科学、艺术和人文等。 研究表明,当采用zero-shot设置时,即不使用额外训练样本的情况下,Llama能够在多种任务上取得令人印象深刻的成绩。然而,随着微调过程的应用——特别是通过加入人类反馈并针对模型难以处理的具体案例进行优化——其性能得到了进一步提升[^4]。这意味着即使是在未见过的数据集上,经过适当调整后的Llama也能展现出更高的准确性和可靠性。 对于像MMLU这样复杂的推理理解类评测标准而言,拥有强大基础架构支持的Llama展现出了显著优势。它不仅能够快速适应新环境下的挑战,而且还能持续改进自身的表现,从而证明了该模型具备优秀的泛化能力和学习效率[^5]。 ```python # 示例代码用于展示如何加载预训练好的Llama模型并对MMLU数据集进行预测 from transformers import AutoModelForSequenceClassification, AutoTokenizer model_name = "facebook/llama" tokenizer = AutoTokenizer.from_pretrained(model_name) model = AutoModelForSequenceClassification.from_pretrained(model_name) def predict_mmlu_question(question_text): inputs = tokenizer(question_text, return_tensors="pt") outputs = model(**inputs) logits = outputs.logits predicted_class_id = logits.argmax().item() return model.config.id2label[predicted_class_id] sample_question = "What is the capital city of France?" print(predict_mmlu_question(sample_question)) ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值