本文是LLM系列文章,针对《Enhancing Multilingual Capabilities of Large Language Models through Self-Distillation from Resource-Rich Languages》的翻译。
摘要
尽管大型语言模型(LLM)已经在多语言语料库上进行了预训练,但与少数资源丰富的语言相比,它们在大多数语言中的性能仍然落后。缓解这一问题的一种常见方法是将训练数据从资源丰富的语言翻译成其他语言,然后继续训练。然而,使用仅依赖翻译而忽略LLM跨语言的原始能力的数据并不总是有效的,我们表明这将限制跨语言知识转移的性能。在这项工作中,我们提出了SDRRL,这是一种基于资源丰富语言的自蒸馏的方法,通过利用LLM在资源丰富语言上的内部能力,有效地提高了多语言性能。我们在各种理解和生成任务中对不同的LLM(LLaMA-2和SeaLLM)和源语言(英语和法语)进行了评估,实验结果表明,SDRRL可以显著增强多语言能力,同时最大限度地减少资源丰富语言对原始性能的影响。