Aya 模型:一个经过指令微调的开放访问多语言模型
摘要
近年来大型语言模型(LLMs)的突破主要集中在少数数据丰富的语言上。那么,如何才能将这些突破扩展到非主流语言呢?我们的工作介绍了 Aya,这是一个支持 101 种语言的多语言生成语言模型,其中超过 50% 是低资源语言。Aya 在大多数任务上优于 mT0 和 BLOOMZ,同时覆盖的语言数量是它们的两倍。我们引入了广泛的新评估套件,扩大了 99 种语言的多语言评估的最先进水平——包括判别性和生成性任务、人类评估以及涵盖留存任务和分布内性能的模拟胜率。此外,我们还对最优微调混合物的组成、数据修剪以及我们模型的毒性、偏见和安全性进行了详细研究。我们将我们的指令数据集和模型开源,地址是 https://hf.co/CohereForAI/aya-101。
引言
我的语言的极限意味着我的世界的极限。 — 路德维希·维特根斯坦
机器学习中的一个基本问题是如何有效地捕捉长尾的细微差别。我们周围的世界,包括语言和有形的物体,自然充满了稀有和被低估的例子。然而,当我们将复杂的世界转化为训练我们模型的数据矩阵时,这种不平衡现象变得更加严重。数据集一直是现代机器