本文系统总结了多语言大模型的相关工作,探讨了跨语言大模型对⻬⽅法,包括参数调整对⻬和参数冻结对⻬。同时该综述也涵盖了多语⾔⼤模型的训练数据和未来⽅向,希望帮助研究者全面了解多语言大模型的研究现状。该工作目前发表在 Cell Patterns 上。
论文标题:
A Survey of Multilingual Large Language Models
论文链接:
https://www.cell.com/patterns/fulltext/S2666-3899(24)00290-3
主页链接:
https://multilingual-llm.net](https://multilingual-llm.net/
项目链接:
https://github.com/LightChen233/Awesome-Multilingual-LLM
背景
近年来,LLM 发展迅速,在各个自然语言处理任务中都取得了卓越的表现。此外,LLMs 还表现出了强大的涌现能力,如 CoT(chain-of-thought)、ICL(in-context Learning)、甚至 planning。然而,目前大多数的 LLM 都是以英文为中心,且主要关注英语方面的任务。然而世界上有超过 7000 种语言,随着全球化的加速,LLMs 应该将不同地区的语言和文化都考虑在内,而多语言大模型凭借着对多种语言的强大处理能力,受到了研究者的极大关注。
数据集资源
按照训练阶段的不同,可以将数据集划分为三大类:多语言预训练数据、多语言指令微调数据以及多语言指令 RLHF 数据。常用的构造方法有人工构造、网络爬取、机器翻译、Benchmark 清洗、MLLM 辅助生成等。
分类方法
多语言对齐方面,可以按照模型在跨语言对齐的过程中是否进行了参数调整进行划分为以下两个类别:
参数调整对齐(Parameter-Tuning Alignment,PTA):对大模型参数进行调整,来进行多语言的对齐。进一步地,按照训练阶段的不同,可以分为:
预训练对齐:通过在预训练数据集中加入一些多语言数据,或预训练完成后再使用多语言数据集进行新的预训练,来实现不同语言之间的对齐,代表模型有 mT5、BLOOM、PaLM、LLaMa、Mixtral、FinGPT、X-Gen 等;
指令微调对齐:利用各类多语言任务数据集进行指令微调,代表模型有 BLOOMz、Flan-PaLM、Chinese-Alpaca 等;
RLHF 对齐:使用多语言 RLHF 数据来训练多语言的打分模型,获取多语言对齐信号,优化模型性能,代表模型有 Chat-GLM、MOSS、InternLM、Qwen 等;
下游微调对齐:将模型在下游任务上进行全参数微调或参数高效微调,来适应下游场景的各类多语言任务。
参数冻结对齐(Parameter-Frozen Alignment,PFA):冻住大模型的参数,利用大模型的涌现能力实现多语言的对齐。进一步地,按照方法的不同,可以分为:
直接提示:让模型直接输出目标语言,不使用任何额外指令,利用模型自身多语言能力进行隐式对齐;
Code-Switching 提示:让模型输出类似于 “Chinglish” 的不同语言混杂的句子,从而完成浅层的跨语言对齐;
翻译对齐提示:先让模型进行翻译,之后再给出应答,从而完成更深层次的跨语言对齐;
检索增强对齐提示:模型检索外部多语言信息,再给出应答,借助外部多语言进行跨语言对齐。
多语言表现评估
为了便于模型间的比较和性能评估,人们已经投入了大量精力来探索针对多语言情景的评估方法。本节将阐述多语言大模型的评估,包括评估指标和评估基准。
评估指标:
传统的自动化指标:指使用传统的基于概率、预训练模型的 logits 来进行评估,例如 BLEU、BLEURT、chrF++、COMET、ROUGE 等。为了评估生成文本的质量,人们一般会使用 BERTScore 来作为多语言情景下的 metric。
基于多语言大模型的自动化指标:指使用稳定的多语言大模型来为生成的输出进行打分或对比。
人类评估:指以人工的方式来为模型输出进行评估。
评估基准:
目前的 MLLM 倾向于把更多关注点放在模型在非英语语言的对齐上。基于对齐的不同角度,现有的 Benchmark 在评估内容上可以分为两大类:自然语言理解(Natural Language Understanding)与自然语言生成(Natural Language Generation)。
自然语言理解:评估内容包括语言分析(Linguistics Analysis)、语义理解(Semantic Understanding)、文化理解(Cultural Understanding)、知识理解(Knowledge Understanding)等方面。
自然语言生成:评估内容包括文本翻译、推理、代码生成、文本总结、对话等任务。
未来方向
综述探讨了目前大语言模型知识蒸馏的问题以及潜在的未来研究方向,主要包括:
幻觉(hallucination)问题:如何有效地检测多语言大模型中的幻觉现象;如何避免多语言大模型出现幻觉问题;
知识编辑(Knowledge Editing)问题:如何能够连续地扩充多语言大模型知识,并与此同时维持住模型原本的知识,使其不被遗忘;如何平衡普遍知识与某一具体语言下的知识;
安全问题:如何去除数据集中不安全的内容;如何构建能够评估模型安全性的 benchmark;
公平问题:如何改善模型在低资源语言上的表现;如何改善 tokenizer 在不同语言上的代价差异;
语言扩展问题:如何高效且动态地扩展多语言大模型的语言种类,同时维持模型在原本语言上的表现;
模态扩展问题:如何让多模态多语言模型完成复杂的推理任务;如何构建详细的基准。
多模态可解释性问题:如何构建理论框架以解释多模态对齐的有效性,并提供清晰的因果关系;如何提升模型在多语言和多模态下的透明度和可解释性,使其能够更好地应用于敏感领域,如医疗和法律。
部署效率问题:如何在资源受限设备(如移动设备、边缘设备)上高效部署多语言大模型,解决其高计算资源需求和内存占用问题;如何克服低资源语言由于数据和计算资源不足导致的性能瓶颈。
更新一致性问题:如何在模型更新时有效平衡多语言和单语言模型性能,确保在整合新语言、数据或优化过程中,维持语言间的一致性,特别是在数据稀缺的低资源语言场景下。
总结
该综述对多语言大模型的进展进行了全面系统的总结。综述从对齐的角度提供了一个新的多语言大模型分类方法,可以为相关研究人员提供一个统一的视角,以了解多语言大模型的进展。最后,综述探讨了多语言大模型中一些新兴趋势和前沿,以及它们对应的挑战,希望这项工作能促进相关领域研究人员更好地进行研究,做出更多的突破。
更多阅读
#投 稿 通 道#
让你的文字被更多人看到
如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。
总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。
PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。
📝 稿件基本要求:
• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注
• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题
• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算
📬 投稿通道:
• 投稿邮箱:hr@paperweekly.site
• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者
• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿
△长按添加PaperWeekly小编
🔍
现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」
点击「关注」订阅我们的专栏吧
·