多语言模型跨语言迁移影响因素研究综述
原论文地址:
https://aclanthology.org/2023.acl-long.323
近年来,预训练的多语言模型(MLLMs)展现出强大跨语言知识迁移能力,但因其设计未明确考量该能力,解释其成因颇具挑战。在这篇综述中,我们调研相关文献,梳理并讨论影响MLLMs零样本跨语言迁移能力的因素,将其归纳为五类。我们总结实证依据,梳理共识,分析矛盾结论,统一现有研究。本综述为未来研究提供参考标准,也为高效利用MLLMs跨语言能力提供指导。
一、研究背景
1.1 多语言语言模型
MLLMs主要基于Transformer架构,旨在生成可用于不同语言下游任务的多语言文本表示,而在实现这一目标时,不同模型采用了不同的学习策略。
像是XLM和UniCoder等模型在预训练阶段利用平行数据,融入跨语言学习目标,以促进不同语言之间的信息传递;而mBERT和XLM-R则依赖各自独立的单语语料库进行预训练,在训练过程中没有明确的跨语言监督信号。
尽管MLLMs在多种任务中表现出色,但仍面临诸多挑战。预训练数据的不平衡问题较为突出,某些语言的数据量过大,而低资源语言的数据则严重不足,这使得模型在处理不同语言时性能差异较大。
此外,适用于不同语言(尤其是低资源语言)的评估数据集有限,难以全面准确地评估模型在各种语言上的表现。模型容量与语言覆盖范围之间的权衡也不容忽视,随着模型覆盖语言数量的增加,为保证整体性能,需要不断扩大模型容量,但这又可能带来计算成本增加、训练时间变长等问题,这种现象被称为 “多语言诅咒”。
1.2 (零样本)跨语言迁移
在MLLMs的语境中,跨语言迁移指的是将模型在一种语言中学习到的知识转移到另一种语言。
零样本跨语言迁移的典型流程通常包含两个关键步骤:首先,使用源语言的标记数据集对多语言模型进行微调,让模型学习源语言的特征和模式;然后,直接将微调后的模型应用于目标语言,无需再进行额外的微调。
在少样本设置下,会利用少量目标语言的标记样本对模型进行进一步微调,以提升模型在目标语言上的性能。
近年来,不少研究探索了跨语言迁移的方法。除了零样本迁移,一些研究尝试借助机器翻译来实现跨语言迁移。在translate-train方法中,会将标记训练集从源语言翻译成目标语言,用于模型的微调;而translate-test方法则是在推理阶段将测试集从目标语言翻译成源语言。
在这篇综述中,作者主要关注传统的跨语言迁移过程,这是因为机器翻译高度依赖上下文,在处理一些特殊或歧义语言时可靠性欠佳,容易引入外部因素,干扰对MLLMs跨语言迁移行为的研究。
二、影响跨语言迁移的因素
(ps:不想看细节的移步2.6 总结~)
2.1 语言相似性
语言相似性与跨语言迁移性能之间的关系一直是研究的重点,主要通过两种方式进行量化研究:一种是通过合成修改自然语言的特定语言特征,控制修改幅度来观察其对迁移性能的影响;另一种则是使用语言相似性度量指标来捕捉两种自然语言之间的相似程度。常用的度量指标包括世界语言结构地图(WALS)、lang2vec和eLinguistics。
在众多研究中,句法(以词序为代表)对跨语言迁移的影响被广泛探讨。多项实验表明,句法在依赖解析(DP)、命名实体识别(NER)、词性标注(POS)、自然语言推理(NLI)和问答(QA)等任务中,对跨语言迁移有积极作用。
任务具体介绍如下:
任务名称 | 全称 | 任务介绍 | 多语言场景下的作用及挑战 | 应用示例 |
---|---|---|---|---|
NER | 命名实体识别 | 识别文本中特定意义的实体,如人名、地名、组织机构名等 | 需跨越语言障碍,识别不同语言文本中的实体,不同语言的命名实体构成和表达方式差异大 | 从不同语言的新闻报道中提取人物、地点等关键实体信息,用于信息抽取、知识图谱构建 |
POS | 词性标注 | 为文本中每个单词标注词性,如名词、动词、形容词等 | 需适应不同语言的词性体系和语法规则,不同语言的词性种类和标注方式不同 | 辅助多语言翻译模型理解原文语义,提高翻译质量 |
DP | 依存句法分析 | 分析句子中单词间的依存关系,构建句法结构 | 需处理不同语言句法结构的差异,不同语言的语序和句子成分关系不同 | 对比分析不同语言的句子结构,帮助理解语言间句法差异对跨语言迁移的影响 |
NLI | 自然语言推理 | 判断两个句子之间的逻辑关系,如蕴含、矛盾或中立 | 需理解不同语言句子的语义,不同语言表达逻辑关系的方式不同 | 在多语言信息检索中,帮助系统理解用户查询和文档内容的逻辑联系,提高检索准确性 |
QA | 问答 | 根据给定问题,在文本中寻找答案 | 需处理不同语言的问题和答案文本,不同语言的问题表述和答案形式多样 | 在多语言客服场景中,理解不同语言的问题并从知识库中找到准确回答 |
DC | 文档分类 | 将文档划分到预定义类别中,如新闻分类、情感分类等 | 需处理不同语言的文档内容,不同语言的词汇、语法和表达方式会影响分类准确性 | 在国际新闻资讯平台上,对不同语言地区的新闻文档进行分类,方便用户浏览和检索 |
SR | 句子检索 | 从大量句子中检索出与给定查询相关的句子 | 需处理不同语言的查询和句子,不同语言的语义表达和词汇使用不同 | 在多语言学术文献检索系统中,用户用一种语言输入查询,系统从多种语言的文献句子中检索匹配 |
但不同研究结果也存在矛盾,像Wu等人和Deshpande等人通过随机置换、反转词序或根据依存树调整词序创建语言变体,发现反转或随机化词序对跨语言迁移性能的负面影响比调整词序到不同语言更大。
这与Dufter、Schütze以及K等人的研究结果难以直接比较,后两者仅评估了反转或随机置换词序的语言变体。此外,K等人还研究了Zipf定律中相似词在各自语言中频率相似性的假设,发现单字频率作为独立特征无法确保语言间的成功迁移。
还有研究发现,语言间低地理距离和低遗传距离通常对跨语言迁移有益,但遗传距离在Ahuja等人的Lasso回归中未被选为预测特征。低语音距离对标记级任务(如NER、POS、DP、QA)比句子级任务(如NLI、MT)更为重要,而库存特征在选择合适的迁移语言时重要性较低。
2.2 词汇重叠
词汇重叠指的是两种语言之间共享单词或子单词的数量,通常用源语言和目标语言词汇表中独特单词或子单词的百分比来衡量。
量化词汇重叠的方法多样,常见的基于语料库的方法是用两个单语语料库中共享单词或子单词的数量除以两个语料库中独特单词或子单词的总数,ezGlot和归一化编辑距离(LDND)也是常用的量化指标。
关于词汇重叠对跨语言迁移的影响,研究结果并不一致。许多研究发现词汇重叠与跨语言迁移性能之间存在正相关,de Vries等人评估不同书写系统语言间的跨语言迁移性能时发现,共享书写系统(意味着更高的词汇重叠)有助于更好的跨语言迁移,但跨书写系统的迁移也并非不可能,这表明词汇重叠不应被视为单一的决定因素。
然而,也有研究不支持这种正相关关系。Pires等人和Tran等人在对超过16种语言的POS和DP任务实验中发现,跨语言迁移性能在很大程度上与词汇重叠无关;而Wu和Dredze在更多任务但较少语言上的实验则得出了相反的结论。
词汇重叠对迁移性能的影响还可能取决于其他因素。K等人和Conneau等人通过合成调整词汇重叠量进行实验,未观察到词汇重叠与迁移性能之间的显著相关性。Patil等人区分高资源和低资源设置后,发现子单词重叠与迁移性能呈正相关,且当源语言预训练语料库较小时,这种相关性更强。
此外,词汇重叠对迁移性能的影响还与下游任务类型有关。Lin等人、Srinivasan等人和Ahuja等人训练预测器预测模型在不同下游任务中的跨语言迁移性能,将词汇重叠作为预测变量之一,结果发现不同任务中词汇重叠的特征重要性值存在明显差异。
2.3 模型架构
模型架构对跨语言迁移的成功至关重要,它决定了模型处理和表示信息的方式,与模型学习和捕捉知识的能力紧密相关。不合适的架构可能会阻碍模型的跨语言知识迁移。
K等人最早研究了模型架构对跨语言迁移的影响,聚焦于基于Transformer模型的三个主要架构组件:网络深度、注意力头数量和模型参数数量。
研究发现,在模型参数数量固定的情况下,增加网络深度(即更多的隐藏层)有助于提升跨语言迁移性能;增加模型参数数量也有类似效果,但影响相对较小;而注意力头数量对跨语言迁移性能的影响并不显著,实验中即使只有一个注意力头也能取得较好的迁移性能。
Conneau 等人对比双语 BERT 模型不同设置,发现共享层越少,NLI、DP 和 NER 任务的迁移性能越低,表明模型需高效用参实现跨语言迁移。Dufter 和 Schütze 过度参数化 mBERT,证实此观点,同时提出了 “多语言诅咒”(如上文所述)。
Wu 等人强调嵌入层重要性,重新初始化会使模型在 GLUE 基准测试性能降 40%。Deshpande 等人进一步发现,嵌入层静态标记嵌入的跨语言对齐对迁移性能关键。
2.4 预训练设置
由于MLLMs在微调阶段未接触目标语言的特定任务数据,其跨语言能力在预训练阶段形成。因此,研究预训练过程中的相关因素有助于深入理解MLLMs的跨语言能力并进一步提升它。
在预训练组件中,Next Sentence Prediction(NSP)目标的作用存在争议。K等人研究了其对跨语言迁移性能的影响,发现从预训练过程中去除NSP后,NER和NLI任务的性能均有所提升,这一结果在NLI任务中尤为显著,因为该任务与NSP都涉及句子对的分类。
还有,Liu等人的研究表明,在预训练阶段使用更长的输入序列有助于MLLMs实现更好的跨语言迁移能力,尤其是在大规模语料库上进行预训练时。
同时,分词器和词汇表也会影响模型跨语言潜力。Artetxe 等人发现,多语言设置下增大联合词汇表、双语模型中用不相交子单词词汇表可提升迁移性能。Ahuja 等人研究表明,高质量分词器对标记级任务(POS、NER、QA)的跨语言迁移性能影响更大。
2.5 预训练数据
MLLMs(如mBERT)能够在预训练过程中学习跨语言表示,尽管其并非专门为此设计。这可能是因为模型在预训练阶段接触到了多种语言,但预训练语料库对这种自学习能力的影响尚未完全明确。
多项研究显示,预训练目标语言语料库大小与 mBERT 和 XLM - R 在高级任务(NLI、QA)迁移性能相关性强,在低级任务(DP、POS、NER)中较弱。
Liu 等人对比不同数据量预训练的 mBERT 发现,增加语料库大小可显著提升其迁移性能。Lin 等人发现,预训练数据语料库大小比例对 POS 任务重要,但对 MT 和 DP 任务影响小。
预训练语料库来源影响迁移性能。同一领域非平行或不同领域的语料库预训练,会降低迁移性能,在 NER 任务中更明显。目前,共享预训练和任务特定数据来源的影响尚无研究。
2.6 总结
综上,本篇文章的重点研究即是跨语言迁移的影响因素,总结主要包括以下几类:
影响因素 | 具体内容 | 研究结论 |
---|---|---|
语言相似性 | 通过修改语言特征或用相似度指标研究,涉及词序、地理距离等特征,使用WALS、lang2vec等指标 | 语法对跨语言转移可能最重要,但评估方式可能高估其影响;地理、遗传和语音等特征也有影响 |
词汇重叠 | 量化方式有基于语料库、ezGlot和归一化Levenshtein距离等 | 在源语言预训练语料库小或源目标语言词序不同时重要,不是独立影响因素,对不同下游任务影响不同 |
模型架构 | 研究Transformer模型的网络深度、注意力头数量和参数数量等组件影响 | 参数过多可能不利,模型深度比注意力头数量更重要,架构与数据组件交互影响待研究 |
预训练设置 | 研究预训练目标、分词器和词汇表等的影响 | 去除NSP、增大词汇表和使用高质量分词器等可提升跨语言转移能力 |
预训练数据 | 研究预训练语料库大小和来源的影响 | 目标语言预训练语料库大小对高级任务更重要,语料库来源影响转移性能,NER任务受影响最大 |
三、相关工作
近期,大量研究聚焦于利用多语言语言模型(MLLMs)的跨语言潜力实现更好的语言间迁移。有研究调查了现有的跨语言迁移范式,但未深入研究其内在机制。
还有研究在对预训练 MLLMs 的调查中提及影响跨语言迁移的多种因素,却未深入探讨这些因素的研究结果。之后,不少研究进一步探究影响迁移性能的因素,解决了部分以往研究中的矛盾。
有研究提出 “语言血库” 概念,指出不同语言间迁移效果存在差异,强调需深入理解导致这种不平衡的潜在因素。也有研究发现,英语虽在预训练语料库中占主导地位,但并非在所有情况下都是跨语言迁移的最佳源语言。
为实现跨语言迁移中源语言选择的自动化,有研究尝试创建元模型,基于影响跨语言迁移的因素预测特定用例中最合适的源语言。
此外,有研究结合类型学特征提升了低资源语言适配器的性能,但本综述指出,处理低资源场景时可利用的因素不止类型学特征。
四、讨论与展望
文章在以往研究的基础上,全面探讨了影响跨语言迁移性能的多种因素,涵盖语言相关因素、模型因素和训练数据因素。然而,可以看出,现有的研究存在矛盾结果,这可能源于实验实现细节和评估方法的差异。
例如,合成语言无法完全模拟自然语言,不同研究测量特征重要性的方法也影响结果可比性。总体而言,各因素都对跨语言迁移有不同程度影响,且因素间相互作用,还存在任务特定差异,像预训练语料库大小对高级任务更重要,词汇重叠和词序对低级任务更关键。
未来研究应深入探究因素间的相互作用和任务特定差异的原因。鉴于语言特征影响大,可思考以语言特征分布而非语言分布构建多语言模型,如按句法或形态特征聚类文本。
另外,目前缺乏涵盖多种语言的下游任务数据集,需要开发更多此类数据集以全面评估模型。同时,生成式模型受关注,但上述因素对其跨语言迁移能力影响研究不足,未来应加强探索。
关键问题
词汇重叠对跨语言转移性能的影响为何存在争议?
答:不同研究结果不一致,部分研究发现正相关,部分未发现。这是因为实验设置不同,如使用的语言对、任务类型、评估方法不同,且词汇重叠的量化方式多样。
此外,词汇重叠对转移性能的影响还与源语言预训练语料库大小、源目标语言词序以及下游任务类型等因素有关。
模型架构中哪些组件对跨语言转移性能影响较大?
答:网络深度和模型参数数量对跨语言转移性能影响较大。增加网络深度(固定参数数量)可提升转移性能;增加模型参数数量(固定隐藏层数)也有类似效果,但较不显著。
注意力头数量与跨语言转移性能无关,单注意力头也能实现较好转移。此外,嵌入层的训练情况对跨语言转移也很重要,如重新初始化嵌入层会导致性能下降。
预训练设置如何影响MLLMs的跨语言转移能力?
答:预训练目标方面,去除NSP可提升NER和NLI任务的跨语言转移性能;训练方式上,训练子词比训练单词或字符能赋予模型更多跨语言能力;输入标识方面,添加语言身份标记对提升跨语言转移性能不显著。
此外,词汇表大小和分词器质量也有影响,多语言设置下增大联合词汇表大小可提升性能,双语模型中使用不相交子词词汇表效果更好,且高质量分词器对基于token的任务更重要。
综上,这篇综述论文系统地梳理了多语言模型跨语言迁移影响因素的研究现状,清晰呈现了各因素的作用机制、研究争议以及未来研究方向,为该领域的进一步发展提供了重要参考,也许会促进NLP技术在多语言场景下的更高效应用。
今天的论文分享就到这里,如果这些内容对您有所帮助,欢迎点击关注账号。后续将持续输出更多有关AI方向的前沿解读、深度技术分析等优质内容,期待与您共同探索知识边界,敬请关注。