本文是LLM系列文章,针对《Quantifying Multilingual Performance of Large Language Models
Across Languages》的翻译。
摘要
大型语言模型(LLMs)的开发依赖于广泛的文本语料库,这些语料库在语言之间往往分布不均。这种不平衡导致LLM在英语、德语和法语等高资源语言上的表现明显更好,而在低资源语言方面的能力仍然不足。目前,缺乏定量方法来评估LLM在这些低资源语言中的性能。为了解决这一差距,我们提出了语言排名器,这是一种内在指标,旨在使用内部表示根据LLM性能对语言进行基准测试和排名。通过将LLM对各种语言的内部表示与来自英语的基线进行比较,我们可以以稳健和语言无关的方式评估模型的多语言能力。我们的分析表明,高资源语言与英语的相似性得分较高,表现出优异的表现,而低资源语言的相似性分数较低,突显了我们在评估语言特定能力方面的有效性。此外,实验表明,LLM在不同语言中的表现与其预训练语料库中这些语言的比例之间存在很强的相关性。这些见解强调了语言排名器作为评估不同语言(尤其是资源有限的语言)LLM表现的工具的有效性。