前几天Meta公布了一个新的开源模型Llama 3。它包含8B和70B参数的模型,并且给出预训练版本和指令微调版本。
在官方给出的指标对比上看,Llama 3在部分评测集上甚至超过了当前很强大的闭源模型Gemini Pro 1.5。
给大家简单介绍一下这几个评测集分别是干嘛的吧。
MMLU涵盖基础数学、美国历史、计算机科学和法律等 57 项任务,包括机器翻译、文本摘要和情感分析等任务,它需要模型来展示广泛的知识基础和解决问题的能力。
GPQA则由400多个困难的选择题组成,博士水平的学者回答其所在领域问题的正确率为65%。而当他们试图回答其专业领域以外的问题时,尽管在测试期间可以上网,但正确率只有34%。
HumanEval是一个代码能力的评测集。
GSM-8K是由 OpenAI 发布的小学数学题数据集 ,用于测试模型的数学多步推理能力。
MATH中也包含大量的数学问题。
据说未来还会开发出超过GPT-4-Turbo的Llama3 400B模型,其性能更是能够超越GPT-4,并且仍在训练中。
最后是一些Llama-3、GPT-4-turbo、通义千问的弱智吧问题测试。
在线体验地址:https://www.meta.ai
这真有用!