本文是LLM系列文章,针对《YAYI 2: Multilingual Open-Source Large Language Models》的翻译。
摘要
随着自然语言处理的最新进展,大型语言模型(LLM)已经在许多现实世界任务中实现了人类层面的语言理解和生成能力,甚至被视为通用人工智能的潜在途径。为了更好地促进LLM的研究,最近提出了许多开源LLM,如Llama 2和Falcon,并获得了与专有模型相当的性能。然而,这些模型主要是为英语场景设计的,在汉语环境中表现不佳。在这份技术报告中,我们提出了YAYI 2,包括基础模型和聊天模型,参数为300亿。YAYI 2是在多语言语料库上从头开始进行预训练的,该语料库包含2.65万亿个由我们的预训练数据处理管道过滤的token。通过对数百万条指令的监督微调和从人类反馈中的强化学习,基本模型与人类价值观保持一致。在MMLU和CMMLU等多个基准测试上进行的大量实验一致表明,所提出的YAYI 2优于其他类似规模的开源模型。