本文是LLM系列文章,针对《Orion-14B: Open-source Multilingual Large Language Models》的翻译。
摘要
在这项研究中,我们介绍了Orion-14B,一个具有140亿个参数的多语言大型语言模型集合。我们利用数据调度方法在2.5万亿个token的不同语料库上训练基础模型,这些token来源于英语、汉语、日语、韩语和其他语言的文本。此外,我们还微调了一系列为会话应用程序和其他特定用例量身定制的模型。我们的评估结果表明,Orion-14B在广泛的任务范围内实现了最先进的性能。我们公开Orion14B模型系列及其相关代码,旨在激励未来在该领域的研究和实际应用。
1 引言
2 数据
3 预训练
4 微调
5 评估
6 扩展工作
7 结论
在这项研究中,我们提出了Orion-14B,这是一套具有140亿(14B)个参数的多语言大型语言模型。该系列包括一个预训练的基本模型和一个微调的聊天模型,如本技术报告所述。此外,我们还提供了Orion-14B的几个扩展