https://arxiv.org/pdf/2407.10671
QWEN2 技术报告
摘要
本报告介绍了Qwen2系列,这是我们大型语言模型和大型多模态模型的最新成员。我们发布了一套全面的
基础和指令调优语言模型,涵盖了从0.5亿到720亿的参数范围,包括密集模型和专家混合模型。Qwen2超越了大多数以前的开放权重模型,包括其前身
Qwen1.5,并在语言理解、生成、多语种熟练度、编程、数学和推理等多样化基准上展现出与专有模型相竞争的性能。
旗舰模型,Qwen2-72B,展示了卓越的性能:在MMLU上得分84.2,在GPQA上得分37.9,在HumanEval上得分64.6,在GSM8K上得分89.5,在BBH上得分82.4,作为基础语言模型。指令调优变体,Qwen2-72B-Instruct,在MT-Bench上获得9.1,在Arena-Hard上获得48.1,在LiveCodeBench上获得35.7。此外,
Qwen2展示了强大的多语言能力,精通大约30种语言,涵盖英语、中文、西班牙语、法语、德语、阿拉伯语、俄语、韩语、日语、