Abstract
大规模语言模型(LLMs)在自然语言处理的诸多任务中表现出了卓越的性能。然而,在机器翻译,尤其是翻译资源匮乏的语言时,它们的成功表现并不总是显著。这项研究重点探讨了LLMs的多语言处理能力,并以爱尔兰语作为案例,研究了其在英语与爱尔兰语之间的翻译任务中的表现。
研究的主要内容
-
语言适配框架的提出
针对现有的大规模英语为主的语言模型(称为“英语中心的LLMs”),研究人员提出了一种动态、高效的语言适配框架。这种框架对模型的不同层进行特定调整,并对其进行微调,旨在提高机器翻译的效果。这种方法的重点是,在翻译低资源语言(如爱尔兰语)时,通过对模型的层次进行语言适配,能够有效地改善翻译的质量。 -
主要发现与关键见解
- 不同层的功能:模型的不同层在翻译过程中发挥了不同的作用。具体来说,模型的某些层在处理语言理解,而其他层则更侧重于任务推理。
- 广泛的预训练:要提高翻译质量,模型需要在源语言(英语)和目标语言(爱尔兰语)上进行充分的预训练,以便在翻译任务中实现更好的性能。
- 针对性微调:研究发现,针对机器翻译任务进行的微调能够显著提高模型的翻译表现。实验结果显示,经过这种微调后,模型的英语到爱尔兰语翻译准确率提高了36.7%,而爱尔兰语到英语的翻译准确率更是提高了133.4%。
具体案例与例子
为了更好地理解这些技术的应用,我们可以考虑以下两个具体例子:
-
示例1:语言理解层的作用
例如,在翻译过程中,模型的前几层会专注于对词汇和句法的基本理解。假设我们要将“Dia duit”从爱尔兰语翻译成英语。模型的初始层会通过预训练来理解“Dia”表示“God”,“duit”表示“to you”,然后在更高层次的推理层中将其理解为“Hello”这样更贴切的翻译。因此,前几层主要进行基本语言的解析,而后续层则是对语言语义的更高层次推理。 -
示例2:针对性微调的效果
假设我们在低资源语言环境中,进行英语到爱尔兰语的翻译。传统模型可能会翻译出“Hello, friend”这样的句子为“Dia duit, cara”。而通过特定的微调后,模型可以根据爱尔兰语的语言习惯和语境,改进翻译为“Dia dhuit, a chara”,更符合爱尔兰语的语法规则和表达习惯。因此,针对性微调可以显著提升翻译的准确性,使其更自然。
结论
通过上述方法和框架的改进,研究表明大规模语言模型在低资源语言的翻译中可以取得显著的进步。
1 Introduction
Paragraph1
大规模语言模型(LLMs)最近在自然语言处理(NLP)领域引发了革命性变革,在众多任务上展现出卓越的性能。这些模型基于Transformer架构,通过大量数据进行训练,从而具备了卓越的语言理解能力。然而,机器翻译领域,特别是针对低资源语言的翻译,仍然面临显著挑战(Bawden 和 Yvon,2023)。
传统神经机器翻译(NMT)方法的挑战
传统的神经机器翻译方法通常对数据的依赖性很强。它们往往需要大量的平行数据对(即源语言和目标语言的成对句子)来获得较高的翻译质量。这种需求对高资源语言(如英语和法语)较容易满足,但对于数据匮乏的低资源语言(如爱尔兰语或威尔士语)来说,获取大量高质量的平行数据几乎不可能,因此传统NMT方法在低资源任务中的应用受到极大限制。
具体的挑战示例
例如,在翻译爱尔兰语和英语之间的文本时,由于爱尔兰语的文本数据极其有限,传统NMT方法很难获得可靠的翻译效果。假设一个模型在英语到法语的翻译中有数百万对平行句子数据支持,能轻松处理大多数句子结构。但在爱尔兰语的情况下,可能仅有几千个平行句对,这会导致模型在翻译中出现大量的词汇错误或语法不当的现象。
大规模语言模型的优势与不足
大规模语言模型因其海量的预训练数据和Transformer架构的强大计算能力,具备了较好的语言迁移能力。这种迁移能力使得它们在缺乏平行数据的情况下,仍然能够一定程度上理解低资源语言的结构和表达方式。然而,由于LLMs的预训练主要基于高资源语言,低资源语言的翻译能力相对较弱,且模型在翻译任务中依然表现出数据利用效率低的问题。
结论
因此,虽然LLMs在许多NLP任务中展示了巨大的潜力,但在低资源语言的机器翻译任务中仍存在显著的改进空间。如何提高模型的数据利用效率,减少对大量平行数据的依赖,将是未来研究的重要方向。
补充1.1 NMT、LLMs
NMT(Neural Machine Translation,神经机器翻译)和LLMs(Large Language Models,大规模语言模型)是现代自然语言处理(NLP)领域的重要技术。
1. 神经机器翻译(NMT)
神经机器翻译是一种基于深度学习的机器翻译方法,用于将一种语言的文本翻译成另一种语言。NMT的核心是通过神经网络来学习和生成目标语言的翻译结果。与传统的基于规则或统计的机器翻译方法不同,NMT直接通过大量数据进行训练,自动学习语言之间的对应关系,不需要人为制定复杂的翻译规则。
NMT 的基本工作原理
NMT模型通常基于深度神经网络,尤其是近年来广泛使用的序列到序列(Sequence-to-Sequence)模型。它包含两个核心组件:
- 编码器(Encoder):将源语言文本(如英语句子)编码为一个潜在的向量表示,捕捉原句的语义和结构信息。
- 解码器(Decoder):基于编码器的输出,将这些向量表示解码为目标语言文本(如法语句子)。
现代NMT模型通常采用Transformer架构,一种更为高效且并行化的网络结构,使模型可以更快、更准确地进行翻译任务。Transformer架构引入了“注意力机制(Attention Mechanism)”,可以帮助模型聚焦于源句子中更为关键的词语,提高翻译的准确性。
NMT 的优缺点
- 优点:翻译精确、可处理复杂句子结构,支持大规模数据的学习。
- 缺点:需要大量平行数据(即源语言和目标语言成对的数据),对于低资源语言的翻译效果较差,且在处理长句子或复杂句子时可能会出现性能下降。
NMT 的应用举例
NMT广泛应用于各种自动翻译系统,如Google翻译、DeepL等。比如,当你输入“Hello, how are you?”,NMT会将其翻译为其他语言,如法语的“Bonjour, comment ça va?”。在这个过程中,NMT模型理解了“Hello”对应“Bonjour”,“how are you”对应“comment ça va”。
2. 大规模语言模型(LLMs)
大规模语言模型(LLMs)是近年来自然语言处理领域的重要突破。它们是基于Transformer架构的深度神经网络,通过预训练大量文本数据,具备了极高的语言理解、生成能力。LLMs不仅可以用于翻译,还可以完成文本生成、摘要、问答等多种任务。GPT(如ChatGPT)和BERT等都是典型的大规模语言模型。
LLMs 的基本工作原理
LLMs主要通过以下两个阶段进行训练:
-
预训练(Pre-training):模型被训练在大量文本数据上,学习语言的语法、词汇、语义和一些世界知识。训练的目标是让模型学会预测下一个词语或填补句子中的空缺,例如在句子“今天的天气很____”中预测“好”或“晴朗”。
-
微调(Fine-tuning):在特定任务或领域上对模型进行微调,以提升其在特定任务上的表现。比如在翻译任务中,模型会被微调以更好地学习源语言和目标语言的映射关系。
LLMs 的优缺点
- 优点:LLMs具备广泛的语言能力,能够完成多种NLP任务;通过微调可以适应特定任务,具备一定的泛化能力。
- 缺点:LLMs的训练过程耗费大量计算资源,且由于训练数据主要来自高资源语言,因此对低资源语言的支持较弱;在某些任务中可能会出现不准确或“编造”的情况。
LLMs 的应用举例
LLMs应用广泛,不仅限于翻译。比如,ChatGPT可以进行自然对话、提供知识解答、生成创意内容等。若你向LLM询问“Explain quantum mechanics in simple terms”,模型会理解你的问题并给出关于量子力学的解释。
总结
- NMT 专注于翻译,通过神经网络将源语言文本转换为目标语言文本,适用于各种语言对翻译,但对低资源语言的支持有限。
- LLMs 是通用的语言模型,支持更广泛的NLP任务,包括翻译、问答、文本生成等,具备良好的语言理解能力,但对低资源语言支持仍有待改进。
两者结合在一起时,可以利用LLMs的语言理解能力来改进NMT在低资源语言中的表现,提升模型在多语言任务中的适用性。
Paragraph2
该论文旨在探讨大规模语言模型(LLMs)的多语言能力,特别是针对极低资源语言——爱尔兰语,以及英语和爱尔兰语之间的翻译任务。爱尔兰语被列为濒危语言,在机器翻译中面临独特的挑战。具体而言,爱尔兰语的平行语料库极为有限(Lankford等,2022;Ojha等,2021),而且在预训练数据集中占比稀少(Barry等,2022;Tran等,2024),因此爱尔兰语成为了一个重要的研究对象,有助于探索LLMs在低资源语言环境下的潜力。
目前的LLMs如ChatGPT(OpenAI,2022, 2024)、BLOOM(Workshop等,2023)和Llama系列(Touvron等,2023a, b)虽然经过多语言数据集的预训练,但主要还是偏向英语。尽管这些模型已具备一定的多语言处理能力,但它们在低资源语言之间有效翻译的能力仍然是一个未解的问题。这项研究旨在揭示这些LLMs在低资源环境中的多语言适应性,尤其是爱尔兰语的翻译能力是否能达到实际应用水平。
补充1.2
Paragraph3
本研究在将大规模语言模型(LLMs)应用于低资源语言翻译的过程中,提出了几项关键见解,以提升模型的双语能力,具体包括对源语言和目标语言的广泛预训练需求。为此,我们设计了一种新的框架,用于将英语为主的LLMs高效地适配到低资源、未见过的语言环境中,并在机器翻译任务上进一步微调。
方法概述
我们的框架采用了两阶段训练过程,具体如下:
-
动态持续预训练
在这个阶段中,我们并非对LLM的所有层都进行训练,而是根据模型层的语言能力来选择性地训练特定层。这种语言能力是通过检索得分(retrieval scores)来衡量的。这一选择性训练的过程帮助模型在高效适配的同时避免了不必要的计算开销,从而在双语理解上取得了显著改进。 -
专用微调
在完成动态预训练后,我们进一步对模型进行微调,使用特定的机器翻译数据集,以进一步提高翻译质量。该微调过程的重点是优化模型的语言理解和推理层,使其更加适应于双语环境。这种方法仅需训练模型的一小部分参数就能实现语言的有效适配,从而大大提高了训练效率。
研究成果
通过这种方法,我们在爱尔兰语和英语之间的翻译任务上实现了显著提升:
- 爱尔兰语到英语翻译:相比以往的最先进方法,在LoResMT-2021数据集上,我们实现了高达46.14的BLEU分数提升。
- 英语到爱尔兰语翻译:在同一数据集上,相较于之前的方法,BLEU分数提升了13.22。
关键优势
- 层选择训练:通过专注于负责语言理解和推理的层,我们能够在不增加大量参数的前提下,有效地增强模型的双语能力。
- 计算效率:整个适配过程仅需模型少量参数的训练,因而在计算资源方面更加高效。
总结
我们的研究证明了,在低资源语言的机器翻译中,LLMs可以通过选择性预训练和微调获得显著提升。这一方法不仅提升了模型的翻译质量,还极大地优化了计算效率,为低资源语言机器翻译的未来应用提供了有效的解决方案。
补充1.3 两阶段训练过程
动态持续预训练
动态持续预训练是一种针对模型在特定任务或特定语言上进一步适应的训练方法。这种方法并非对整个模型进行全面训练,而是选择性地对模型的特定层进行训练,以此来提高模型对新语言的理解能力。这种“选择性训练”可以让模型更高效地适应新任务,尤其在低资源环境下减少计算资源和时间消耗。
具体操作
- 语言能力检索:首先,我们会使用检索得分(retrieval scores)来评估每个层在新语言上的表现,找出那些在该语言上表现较弱的层。
- 选择性训练:然后,仅对这些薄弱层进行训练,而不是整个模型。这样可以集中资源,提高新语言的理解能力。
示例
假设我们有一个主要用于英语任务的LLM模型,我们希望适应它去理解爱尔兰语。通过检索得分,我们发现模型中第4层和第8层在爱尔兰语的词汇和语法理解上有不足。因此,我们仅对第4层和第8层进行动态预训练,而其他层保持不变。这种选择性训练使模型在处理爱尔兰语时能够更好地理解其结构和含义。
专用微调
专用微调是指在特定任务上对模型进一步精调,以提高该任务的性能。在机器翻译的背景下,专用微调是指在特定的翻译任务数据集上(如英语到爱尔兰语)对模型进行训练,以提高翻译质量。这一步骤主要关注语言理解和推理层的优化,确保模型可以生成更准确、更自然的翻译。
具体操作
-
任务数据集微调:在完成动态持续预训练后,模型会进一步在特定的机器翻译数据集上进行微调,如英语-爱尔兰语平行数据集。通过这一过程,模型不仅增强了新语言的理解能力,还提高了其在翻译任务中的表现。
-
目标优化:微调的主要目标是调整模型的参数,使其更符合任务需求,例如在句法、语义上更准确地进行翻译。
示例
假设在动态持续预训练之后,我们的模型在爱尔兰语的基础理解上已经有了一定的提升。接下来,我们可以将其在“LoResMT-2021”数据集上进行专用微调。LoResMT-2021是一个专门用于爱尔兰语和英语的平行翻译数据集。在这个数据集上微调后,模型将更好地掌握爱尔兰语的句法和语义特征,使其在翻译任务中产生更准确的输出。
综合案例:从英语到爱尔兰语的翻译流程
假设我们有一个LLM主要是英语为主的,现在我们想要它翻译英语到爱尔兰语:
-
动态持续预训练:通过检索得分,我们发现模型的中间层(如第4层、第8层)对爱尔兰语的语法结构理解较差。我们就对这些层进行有针对性的训练,输入更多的爱尔兰语数据,让模型掌握爱尔兰语的基本特性。
-
专用微调:在持续预训练后,模型已经具备了一些爱尔兰语的基础知识。我们接着用LoResMT-2021数据集对模型微调。此时,模型不仅了解爱尔兰语的基本结构,还能在翻译中准确转换语言的意思和风格。
-
翻译效果提升:经过这两个阶段后,模型可以更准确地将“Hello, how are you?”翻译成“Dia dhuit, conas atá tú?”,而不是简单的逐字翻译。这说明模型不仅理解了词汇,还掌握了目标语言的语境和表达习惯。
这种两阶段的训练方式确保了模型能够高效地学习新语言,并在特定翻译任务中表现出色。
2 Related Work
2.1 Neural Machine Translation
2.1 神经机器翻译 (NMT)
神经机器翻译(NMT)已成为机器翻译领域的主流方法,这主要归功于序列到序列(Sequence-to-Sequence)模型的成功以及注意力机制的引入。特别是Transformer模型(Vaswani等,2017)的出现,为NMT带来了更高效和可扩展的架构。Transformer完全依赖于注意力机制,摒弃了传统的循环神经网络(RNN)结构,使得模型在处理长文本序列时具有更高的效率和准确性。如今,Transformer已经成为了大多数最先进(SoTA)NMT系统的基础(Lankford等,2021;Team等,2022)。
尽管NMT技术取得了显著进展,但在翻译低资源语言方面仍面临困难。低资源语言缺乏足够的训练数据,使得NMT系统难以获得高质量的翻译效果。为了解决这一问题,研究人员提出了多种方法:
- 迁移学习(Transfer Learning):迁移学习通过从高资源语言中学习相关特性,并将这些知识转移到低资源语言中,从而提高翻译质量(Zoph等,2016;Chen和Abdul-mageed,2023)。
- 多语言NMT(Multilingual NMT):该方法利用多语言数据,通过让模型在多个语言对上进行训练,使低资源语言也能从高资源语言的数据中获益(Johnson等,2017;Dabre等,2020)。
这些方法通常会利用高资源语言的信息或单语数据来提高低资源语言的翻译质量。然而,仍然存在显著的挑战,其中最主要的问题是对平行数据的依赖。对于低资源语言来说,平行数据的获取相当困难,这极大地限制了NMT在这些语言上的性能。
本研究的创新:LLMs在NMT中的应用
在本研究中,我们探讨了一种新的范式,即通过将大规模语言模型(LLMs)应用于神经机器翻译领域,以进一步提升低资源语言的翻译效果(Workshop等,2023;Bawden和Yvon,2023)。LLMs通过大规模预训练积累了广泛的语言知识和语义理解,我们研究是否可以将这种能力转移到NMT任务中,尤其是针对低资源语言的翻译任务。
然而需要注意的是,尽管LLMs在多个语言上进行了预训练,它们的训练数据通常是单语的,即每个样本通常只包含一种语言的数据。这种单语训练可能会对模型在跨语言翻译任务中的表现造成影响,因为模型在预训练时缺少直接的双语映射关系。
2.2 Large Language Models
2.2 大规模语言模型(LLMs)
大规模语言模型(LLMs)因其卓越的文本生成能力和在多种自然语言处理(NLP)任务中的多功能性而备受关注。无论是闭源的ChatGPT,还是开源的BLOOM(Workshop等,2023)和Llama系列(Touvron等,2023a,b),这些模型在处理多种语言和任务上均表现出色。然而,这些模型主要集中在英语等广泛使用的语言上,这导致其在低资源语言应用中表现出显著的差距。
近来的研究(Bawden和Yvon,2023;Hendy等,2023)调查了LLMs在机器翻译任务中的能力,发现这些模型在高资源语言的翻译任务中表现优异。然而,对于低资源语言(如爱尔兰语)来说,LLMs的有效性依然受限,主要原因在于缺乏充足的训练数据。
针对低资源语言的LLM:UCCIX模型
UCCIX(Tran等,2024)是一个最新开发的LLM,专注于支持爱尔兰语——一种被联合国教科文组织(UNESCO,2010)认定为“确定濒危”的语言。由于爱尔兰语数据的稀缺,UCCIX的作者提出了一种语言适配框架,以使得英语为主的LLM能够成为双语模型。然而,研究过程中发现,在爱尔兰语数据上持续预训练的过程中,模型可能出现灾难性遗忘(catastrophic forgetting)的问题,即模型在学习爱尔兰语时会逐渐丧失其对英语的掌握能力。
研究目的与方法
本研究以爱尔兰语为案例,探索大规模语言模型在爱尔兰语和英语翻译任务中的潜在应用,作为保护爱尔兰语、防止其流失的努力之一。我们分析了LLM的双语能力,并提出了一种自适应语言适配策略,该策略旨在平衡模型在两种语言之间的性能。具体来说,我们的适配策略通过在爱尔兰语和英语上交替训练模型,使其能够在同时保留两种语言的理解和生成能力的基础上高效适应低资源语言环境。
研究的目标
通过这种方法,我们的目标是:
- 增强LLM的低资源语言适应能力:改进模型在爱尔兰语上的表现。
- 维持模型的高资源语言能力:防止在爱尔兰语训练过程中对英语知识的遗忘。
- 在高低资源语言间实现平衡:确保模型在高资源(如英语)和低资源(如爱尔兰语)语言上均具有强健的性能。
这一策略旨在优化LLMs在低资源环境中的适应效率,从而确保模型在高、低资源语言环境中均能表现良好。这不仅为机器翻译任务提供了新的思路,也为保护濒危语言如爱尔兰语提供了支持。
2.3 Low-Resource Settings
2.3 低资源环境
研究低资源语言在自然语言处理(NLP)中的挑战是非常重要的,因为语言的多样性以及对包容性技术的需求日益增加。强大的模型通常需要大量带注释的数据集进行训练,而低资源语言往往缺乏这些资源,因此传统方法难以在这些语言上取得良好表现。
根据最新的研究调查(Ranathunga等,2023),如果平行语料库中包含的平行句子少于50万句,这样的语言对在机器翻译场景中被视为“低资源”;如果平行句子少于10万句,则被认为是“极低资源”。爱尔兰语作为一种濒危语言,属于“极低资源”类别。现有研究汇总了不同来源的爱尔兰语数据集,平行句数量大约为25,000句(Lankford等,2022)到52,000句(Lankford等,2021)不等。
探索单语数据的潜力
鉴于平行数据极其有限,我们探讨是否可以利用大量的单语数据,通过大规模语言模型(LLMs)来改善翻译表现。尽管爱尔兰语的平行数据稀缺,但在新闻、文学、社交媒体等领域,仍然存在一定量的单语数据(例如,仅包含爱尔兰语的文本),这些数据可以用来增强模型的语言理解和生成能力。
研究成果
我们的研究结果表明,即使数据稀缺,通过进一步微调LLMs在机器翻译任务上的表现依然可以获得显著提升。具体来说,我们的方法包括:
- 使用单语数据增强:通过将单语数据结合到模型的训练过程中,使模型在有限的平行数据上具备更好的表现。
- LLM微调:在少量平行数据的基础上,对LLMs进行微调,提升模型在特定翻译任务中的表现。
总结
这些方法表明,即便在数据极其稀缺的情况下,LLMs在低资源环境中依然可以通过单语数据的辅助和进一步的微调获得显著的翻译改进。这不仅有助于提升爱尔兰语等低资源语言的机器翻译质量,也为未来的低资源语言研究提供了新的方法和方向。
3 Method
3.1 Preliminary Explorations —Paragraph1
3.1 初步探索
大规模语言模型(LLMs)通常采用仅解码的Transformer架构,由多层堆叠的Transformer层组成。尽管LLMs的训练数据以英语为主,但由于数据集的庞大,通常也会包含少量的多语言文本。这引发了一个问题:LLMs能否有效理解这些低频语言。例如,在Llama系列模型中,爱尔兰语仅占训练语料的0.005%以下。
实验概述:少样本提示(Few-Shot Prompting)
为了探讨LLMs在低资源语言上的能力,我们进行少样本提示实验,评估其在**英语(主流语言)与爱尔兰语(极低资源语言)**之间的机器翻译任务表现。少样本提示允许LLMs在特定的输入模式下运用其预训练知识完成翻译任务。我们分别测试爱尔兰语到英语(评估模型对低资源语言的理解)和英语到爱尔兰语(评估模型生成目标语言文本的能力)两个方向的翻译。
表1展示了用于提示的样例输入格式,实验结果如表2和图1所示,揭示了以下关键见解:
实验结果与分析
-
LLMs对低资源语言的理解能力有限
英语为主的LLMs对低资源语言(如爱尔兰语)有一定的理解能力,但在生成这些语言的文本时存在明显困难。这一现象在爱尔兰语到英语的翻译任务中尤为突出。例如,gpt-3.5-turbo和Llama 2-70B在爱尔兰语到英语的方向上超过了之前特定任务的最先进方法(Lankford等,2021),提升了高达7.97的BLEU分数。这表明,虽然LLMs对低资源语言的生成能力受限,但在理解上表现尚可。 -
有效的翻译需要在两种语言上广泛的预训练
UCCIX模型在本实验中优于以英语为主的LLMs,并在爱尔兰语翻译任务中胜过参数量更大的gpt-3.5-turbo模型,这说明在两种语言上进行广泛的预训练对低资源语言翻译任务有重要帮助。UCCIX因其双语预训练,使得其在爱尔兰语任务中表现更强。 -
少样本提示有助于任务格式的跟随
在提供示例(即少样本提示)时,LLMs的表现有所提升,这表明通过少量的示例,模型能够更好地理解任务格式,从而提升翻译效果。这一结果与以往研究(Brown等,2020)的发现一致。
总结
通过少样本提示实验,我们验证了LLMs对低资源语言的有限理解能力及其生成能力的不足。进一步,实验也表明,在低资源语言任务上,广泛的双语预训练和少样本提示能够提升模型的性能和任务格式的适应性。这些发现为未来如何优化LLMs在低资源环境中的表现提供了重要参考。
表1展示了用于评估预训练大规模语言模型(LLMs)在机器翻译任务上的5-shot提示示例。左侧的提示示例用于将英语翻译成爱尔兰语,而右侧的示例用于将爱尔兰语翻译成英语。每个示例中都给出了几个句对,包括源语言(Béarla表示英语,Gaeilge表示爱尔兰语)和目标语言的句子翻译,帮助模型理解任务格式和内容。
具体来说,每个提示都包含了多组句对,前几组提供了英语和爱尔兰语的句子对,而最后一行留出一个空白的{input},表示模型需要生成对应的翻译。这种5-shot提示的结构帮助模型更好地学习翻译任务的格式和上下文。
这种少样本提示方法可以增强LLMs在低资源语言(如爱尔兰语)上的表现,使模型能够在已有的提示格式下更准确地生成翻译内容。
3.1 Preliminary Explorations —Paragraph2
为进一步研究LLM的行为,而不依赖于少样本提示及其变体,我们转向分析句子检索任务。句子检索任务(Artetxe和Schwenk,2019;Dufter和Schütze,2020;Yong等,2023)的目标是:给定一种新语言(如爱尔兰语)的句子表示,识别其在英语中的最接近句子。通过这种方法,我们可以计算不同预训练模型在每一层的句子检索准确率,从而了解模型的语言理解能力是如何在不同层次上逐步体现的。
研究方法
我们选择Llama 2模型作为主要分析对象,因其作为一个开源的广泛使用的LLM,具有较好的代表性。在实验中,我们对Llama 2的各个层进行分析,观察不同层次上模型对语言理解的贡献,以进一步探讨哪些层级更擅长于处理低资源语言的句子检索任务。
研究目的
该分析的目的是揭示模型在低资源语言上的理解能力是如何随层次而变化的,并确定模型的哪一层在跨语言的句子表示和理解上更具优势。图1显示了不同模型在少样本提示(few-shot prompting)条件下,随着样本数量的增加,在LoResMT-2021数据集上进行英语到爱尔兰语翻译(图(a))和爱尔兰语到英语翻译(图(b))的性能表现(以BLEU分数衡量)。
主要观察与分析
-
英语到爱尔兰语翻译(图(a))
- UCCIX模型:在所有少样本提示数量下,UCCIX表现最佳,BLEU分数始终稳定在最高水平,接近35分,表明其在极低资源语言(如爱尔兰语)上的翻译能力优于其他模型。
- Llama 2-70B 和 Llama 2-13B:这两个模型的表现相对较好,随着少样本数量增加,BLEU分数稍有提升,说明少样本提示对模型格式理解和翻译质量有一定帮助。
- BLOOM-7B1:BLOOM模型的表现较差,即使在少样本提示增加的情况下,BLEU分数提升也非常有限,表明其在处理低资源语言时的表现受限。
-
爱尔兰语到英语翻译(图(b))
- UCCIX模型:再次表现出色,在所有少样本数量条件下保持最高的BLEU分数,约为40以上。这表明UCCIX对爱尔兰语到英语的翻译任务有很强的适应性。
- Llama 2-70B:随着少样本数量的增加,该模型的BLEU分数有显著提升,逐渐接近UCCIX,显示出较好的翻译能力。
- Llama 2-13B 和 BLOOM-7B1:相对而言,这两个模型的表现较低,尤其是BLOOM-7B1在低资源语言的翻译任务中BLEU分数仍然维持在较低水平。
结论
- 少样本提示的效果:在英语到爱尔兰语和爱尔兰语到英语的翻译任务中,增加少样本提示数量一般会提升模型的BLEU分数,帮助模型更好地理解任务格式,尤其是在爱尔兰语到英语的翻译任务中效果更明显。
- 模型的低资源语言适应性:UCCIX在低资源语言上的表现优于其他模型,证明其在双语预训练上具有优势。而Llama 2系列(尤其是Llama 2-70B)在少样本提示的帮助下,翻译性能也有所改善。
总体而言,UCCIX在低资源翻译任务上表现最佳,而少样本提示对其他模型的翻译性能也有积极影响,尤其在少样本资源有限的情况下能有效提升翻译质量。
3.1 Preliminary Explorations —Paragraph3
这里描述了在爱尔兰语到英语的句子检索任务中,如何通过大规模语言模型(LLM)计算句子的嵌入表示,并用这些嵌入来检索最接近的英语句子。
任务定义
假设我们有一个平行语料库:
D
=
{
(
s
g
a
0
,
s
e
n
0
)
,
…
,
(
s
g
a
i
,
s
e
n
i
)
,
…
,
(
s
g
a
N
−
1
,
s
e
n
N
−
1
)
}
D = \{ (sga_0, sen_0), \dots, (sga_i, sen_i), \dots, (sga_{N-1}, sen_{N-1}) \}
D={(sga0,sen0),…,(sgai,seni),…,(sgaN−1,senN−1)}
其中,
s
g
a
sga
sga表示爱尔兰语句子,
s
e
n
sen
sen表示英语句子。给定一个爱尔兰语句子的表示,句子检索任务就是在英语句子中找到与之最相似的句子。
LLM处理输入数据的过程
大规模语言模型(LLM)采用仅解码架构(decoder-only)处理输入文本数据。该过程包含以下步骤:
-
分词与嵌入映射:首先,输入的句子会被分词成子词单元,映射到嵌入空间中。这些嵌入表示通过一个学习的嵌入矩阵进行映射。
-
Transformer层的处理:嵌入输入到模型的每一层Transformer层中,并在每一层维持其维度。对于位置 j j j上的初始嵌入 h j 0 h_j^0 hj0,在第 l l l层的输出嵌入 h j l h_j^l hjl通过公式计算:
h j l = f l ( h 0 l − 1 , … , h j l − 1 ) h_j^l = f_l(h_0^{l-1}, \dots, h_j^{l-1}) hjl=fl(h0l−1,…,hjl−1)
其中 f l f_l fl表示第 l l l层的Transformer块, l ∈ [ 0 , L ) l \in [0, L) l∈[0,L)对于具有 L L L层的LLM(如Llama 2-13B和微调的UCCIX模型都具有 L = 41 L = 41 L=41层)。 -
句子表示的计算:每一层的句子表示 e l e_l el通过所有位置上的嵌入取平均来计算:
e l = 1 K ∑ k = 0 K − 1 h k l e_l = \frac{1}{K} \sum_{k=0}^{K-1} h_k^l el=K1k=0∑K−1hkl
其中 K K K是句子中嵌入的数量。
检索准确率计算
在第
l
l
l层,句子
i
i
i的检索准确率定义为:
accuracy
l
,
i
=
{
1
,
if
arg
max
i
∈
[
0
,
N
)
cos
(
e
l
,
i
s
g
a
,
e
l
,
i
s
e
n
)
=
i
0
,
otherwise
\text{accuracy}_{l,i} = \begin{cases} 1, & \text{if } \arg\max_{i \in [0, N)} \cos(e_{l,i}^{sga}, e_{l,i}^{sen}) = i \\ 0, & \text{otherwise} \end{cases}
accuracyl,i={1,0,if argmaxi∈[0,N)cos(el,isga,el,isen)=iotherwise
其中,
cos
\cos
cos表示嵌入间的余弦相似度。
总结
- 句子表示计算:在每层中通过平均所有位置的嵌入来获得句子的整体表示。
- 检索准确率:通过计算爱尔兰语和英语句子表示之间的余弦相似度,选择最接近的英语句子并检查是否正确匹配。
观察结果与假设
根据图2的可视化结果,我们观察到UCCIX模型的中间层(在两条水平线之间显示)几乎达到了完美的检索得分,而基础的LLaMA 2模型也表现出类似的趋势,但效果稍差。这引导我们提出了一个关于LLMs架构的假设:模型的层次可以分为两种类型:
-
接口层(Interface Layers)
- 包括输入层(前几层)和输出层(最后几层)。
- 输入层主要负责分析输入文本的语言特性,提取句法、词汇结构等信息。
- 输出层则将中间层的语义表示映射回目标语言的词汇空间,用于生成目标语言的文本。
-
推理层(Reasoning Layers)
- 即模型的中间层,这些层在执行实际任务时具备推理能力。
- 中间层能够更好地理解文本的语义,不受具体语言的限制,从而能够有效地完成句子匹配和跨语言检索任务。
理论支持与验证
在这个假设下:
- 接口层在处理不同语言的文本时包含特定语言的特征信息,因此在匹配不同语言的相同含义句子时会遇到困难。这导致接口层在跨语言的句子检索任务中表现较差,检索得分较低。
- 推理层则不依赖具体语言,专注于文本的语义理解。这些层能够识别出在不同语言中表达相同含义的句子,因此在跨语言检索任务中表现优异,取得高分。
结论
此观察表明,LLMs的中间层是跨语言任务中的关键,它们能够有效执行语言无关的语义推理。而接口层尽管对具体语言的特性敏感,但在跨语言匹配任务中效果有限。因此,未来在优化LLMs以处理低资源语言时,着重提升中间层的跨语言推理能力可能是一个有效的方向。
3.2 Proposed Framework for Dynamic and
Efficient Language Adaptation
框架概述
基于之前的见解,我们提出了一个高效的框架,用于让大规模语言模型(LLMs)适应额外语言的理解和机器翻译任务。这个框架包括两个主要阶段:
- 动态持续预训练,用于语言适配。
- 机器翻译数据上的额外微调,确保模型能在双语翻译任务中表现出色。
核心假设:接口层和推理层
根据我们的初步实验,我们假设LLM的某些层充当接口层和推理层,以支持双语理解。我们通过检索得分( accuracy l \text{accuracy}_l accuracyl)动态识别和训练这些相关层,以提高模型的适配效率。
阶段1:动态持续预训练
-
输入接口层的选择
- 输入接口层负责分析输入语言的特征,我们通过检索得分来动态识别这些层。具体地说,对于检索得分大于阈值
α
s
\alpha_s
αs的第一个层之前的所有层作为输入接口层,定义如下:
l input = { l ∣ 0 ≤ l ≤ arg min l ( accuracy l > α s ) } l_{\text{input}} = \{l \mid 0 \leq l \leq \arg\min_l (\text{accuracy}_l > \alpha_s)\} linput={l∣0≤l≤arglmin(accuracyl>αs)} - 这意味着我们只选择对语言特征有重要作用的前几层进行训练,以提高模型对新语言的输入理解能力。
- 输入接口层负责分析输入语言的特征,我们通过检索得分来动态识别这些层。具体地说,对于检索得分大于阈值
α
s
\alpha_s
αs的第一个层之前的所有层作为输入接口层,定义如下:
-
输出接口层的选择
- 输出接口层负责将中间层的语义映射回目标语言的词汇空间。我们从最后一层往前选择,直到找到第一个检索得分小于阈值
α
e
\alpha_e
αe的层,定义为:
l output = { l ∣ arg max l ( accuracy l < α e ) ≤ l < L } l_{\text{output}} = \{l \mid \arg\max_l (\text{accuracy}_l < \alpha_e) \leq l < L\} loutput={l∣arglmax(accuracyl<αe)≤l<L} - 通过这种选择,我们专注于输出过程中对语言特征至关重要的层。
- 输出接口层负责将中间层的语义映射回目标语言的词汇空间。我们从最后一层往前选择,直到找到第一个检索得分小于阈值
α
e
\alpha_e
αe的层,定义为:
通过在这些选定的层上进行训练,我们可以在提高双语理解能力的同时保持LLM的推理能力。这种策略减少了需要训练的层数,因此在计算效率上更为高效。
阶段2:特定机器翻译数据集上的微调
在动态持续预训练之后,我们在特定的机器翻译数据集上进一步微调LLM。这一阶段的训练确保模型不仅能理解两种语言,还能有效地在它们之间进行翻译。微调包括以下要点:
-
双向翻译:模型分别在英语到爱尔兰语和爱尔兰语到英语方向上进行全量微调,因为实现高质量的双语适应需要接口层和推理层的共同参与。
-
训练损失计算:在这个阶段,我们仅计算目标语言句子的训练损失,忽略任务提示和输入句子的预测损失。这使得模型更关注实际翻译任务,减少不必要的干扰。
总结
通过以上两阶段的训练框架,我们能够有效地增强LLM的双语能力,专注于负责语言理解的关键层。在保持推理能力的前提下,该框架在计算上也更加高效,使LLM能够更好地适应低资源语言的翻译任务。
4 Experiments
4.1 Datasets
语言适应的持续预训练
在语言适应的持续预训练阶段,我们使用了UCCIX模型中引入的单语语料库(Tran等,2024)。该单语数据集包含了来自多个来源的爱尔兰语内容,如CulturaX(Nguyen等,2023)、Glot500(ImaniGooghari等,2023)、以及爱尔兰语维基百科等资源,提供了大量来自爱尔兰语网站和页面的有价值内容。这些资源构成了一个约5亿个爱尔兰语词元的数据集,虽然明显少于用于训练Llama 2的2万亿词元,但为低资源语言的适配提供了必要的数据支撑。
为了保证实验的公平性,我们选择与UCCIX相同的基础模型,即Llama 2-13B,并在该单语数据集上进行持续预训练,以增强模型的爱尔兰语理解能力。
微调阶段
在微调阶段,我们结合了来自LoResMT(Ojha等,2021)和gaHealth(Lankford等,2022)的数据集,这两个数据集都属于医疗领域的领域内数据集。合并后,共有17,000条样本作为训练集。这一步确保了模型不仅理解爱尔兰语,而且对医疗领域的内容有良好的适应能力。
机器翻译的评估
在机器翻译评估中,我们使用BLEU分数作为主要指标,这是机器翻译领域常用的评价标准。评估分数覆盖了两个翻译方向:
- 英语到爱尔兰语:使用LoResMT评估集中500条样本。
- 爱尔兰语到英语:使用LoResMT评估集中250条样本。
为了确保训练和评估数据的独立性,我们严格遵循了LoResMT的训练集划分,以避免数据污染。此外,UCCIX的预训练语料库是单语数据,而评估数据是双语平行数据,因此数据污染的可能性进一步降低。这样做确保了实验结果的可靠性和公平性,使得我们的框架能在低资源的双语机器翻译任务中得到有效验证。
4.2 Experimental Setup
语言适应的持续预训练
在语言适应的持续预训练阶段,我们使用Llama 2-13B作为基础模型,该模型在一个包含2万亿个词元的以英语为主的语料库上进行了预训练。为了确保与UCCIX(一个基于Llama 2-13B的英语-爱尔兰语双语LLM)的公平对比,我们从Llama 2-13B模型开始持续预训练。
参数设置
在本实验中,为了简化模型配置,我们将参数 α s \alpha_s αs和 α e \alpha_e αe均设置为0.075。这使得模型选择了41层中的11层作为接口层来进行训练,占总参数的约25%。相比全量微调,这种方法更加高效。
词表扩展
我们参考UCCIX的方法,将模型的词表扩展,新增了10,000个爱尔兰语的词元,以增强模型对爱尔兰语的理解。
训练配置
- 优化器:AdamW
- 训练轮数:2个epoch
- 学习率:1e-4
- 批次大小:96个样本,每个样本包含4096个词元
- 硬件:训练分布在6张NVIDIA H100 GPU上,梯度累积步数为8
- 加速工具:使用DeepSpeed(Rasley等,2020)来优化训练过程
在这一阶段预训练完成后,模型可以通过少样本提示用于机器翻译任务。默认情况下,我们设计了一个包含任务描述和5个示例(5-shot)的提示,如表1所示。示例数据最初是从开发集的子集随机选择的。
微调机器翻译任务
在机器翻译的微调阶段,我们对模型进行了最多10个epoch的训练。模型参数的具体设置如下:
- 优化器:AdamW
- 学习率:
- 全量微调的学习率设为1e-4
- 参数高效微调方法的学习率设为1e-3(通过网格搜索选择最佳值)
同样,微调阶段的训练分布在6张H100 GPU上,每个批次包含96个样本,每个样本4096个词元。此外,我们使用了DeepSpeed进行加速,每个实验使用不同的随机种子重复3次,并报告平均结果,以确保评估的稳健性。
在推理阶段,模型通过提示完成翻译任务,提示设计如图3右侧所示。图3展示了我们主要的训练流程,包括两个阶段的训练:
阶段1:动态语言适配
在这一阶段,我们使用目标语言的单语数据(例如爱尔兰语),对基于英语的大规模语言模型进行动态语言适配。这一过程包含以下步骤:
-
数据收集和预处理:首先收集和预处理爱尔兰语的单语数据,以用于持续预训练。
-
界面层选择:在模型中,我们定义了两类“界面层”(interface layers):
- 输入界面层( l input l_{\text{input}} linput):选择从第0层到满足检索得分 accuracy l > α s \text{accuracy}_l > \alpha_s accuracyl>αs的最早层。
- 输出界面层( l output l_{\text{output}} loutput):从最后一层向前选择满足检索得分 accuracy l < α e \text{accuracy}_l < \alpha_e accuracyl<αe的第一层。
通过只对这些界面层进行持续预训练,我们专注于提升模型的语言适应能力,同时保留中间层的推理能力。
阶段2:任务微调
在语言适配之后,模型已经能够理解爱尔兰语。接下来,我们在特定的机器翻译数据(如英语-爱尔兰语的平行语料)上对模型进行微调,以提高其在实际翻译任务中的表现。这一步的具体操作包括:
- 微调数据:使用英语和爱尔兰语的平行翻译数据集进行微调。
- 训练方法:我们使用全量微调或参数高效微调的方法,以增强模型在特定机器翻译任务上的能力。
阶段3:推理
在推理阶段,模型可以用于零样本或少样本提示的机器翻译任务,也可以直接作为神经机器翻译(NMT)模型应用。用户可以输入英文或爱尔兰语句子,模型根据提示生成目标语言的翻译。
总结
该流程通过动态语言适配和任务微调,有效地将基于英语的LLM适配到低资源语言环境中,增强其双语理解和翻译能力,同时保持计算效率。这一框架在机器翻译任务上展现了灵活性和高效性。
5 Results and Discussion
5.1 Langugage Adaptation Effectiveness
5.1 语言适应效果
表3展示了我们提出的动态语言适应方法(称为UCCIX interface_layer _{\text{interface\_layer}} interface_layer)的效率和性能。尽管仅训练了模型25%的参数,我们的方法在性能上依然能与UCCIX(使用全量微调)相媲美。例如,在爱尔兰语到英语的翻译任务中,性能下降极小,仅为0.29%。
相比其他参数高效微调技术(如LoRA (Hu et al., 2022) 和 (IA)³ (Liu et al., 2022)),我们的动态界面层训练方法取得了最佳性能。此外,与其他方法在训练中需要注入额外参数并与原始模型融合以实现高效推理不同,我们的方法不引入任何额外参数,因此模型在训练后即可直接使用,无需进一步合并步骤。
消融实验:界面层与推理层的对比
我们进行了一个消融实验,将训练重点从界面层(选自公式(4)和公式(5))转移到推理层,称为UCCIX reasoning_layer _{\text{reasoning\_layer}} reasoning_layer。实验结果表明,我们的方法在英语到爱尔兰语和爱尔兰语到英语两个翻译方向上均优于这一替代方法,分别高出1.42和3.36的BLEU分数。这进一步验证了界面层的有效性。
双语能力分析
为了进一步分析使用我们提出的方法训练的模型在新语言学习和原始语言能力保留方面的双语能力,我们使用了Tran等(2024)提出的一组爱尔兰语和英语基准数据集进行测试。该基准数据集包含多种任务,例如主题分类和开放式问答。表4的结果显示,UCCIX interface_layer _{\text{interface\_layer}} interface_layer在两种语言间的性能平衡性良好,达到了平均Top-1得分0.5982,超过了更大规模的模型Llama 2-70B(0.5897)。我们的模型还在7个数据集中的3个上实现了最先进(SoTA)成绩,分别是SIB-200、IrishQA(爱尔兰语版本)和IrishQA(英语版本)。
此外,在爱尔兰语任务基准测试中,我们的模型表现接近UCCIX,尽管UCCIX进行了完整微调以专注于爱尔兰语,而我们的模型仅训练了25%的参数。这一结果验证了我们关于界面层和推理层的假设:微调界面层可以让模型理解额外的语言而不会导致灾难性遗忘,而冻结推理层则有助于保持模型的实用性和有效性。
结论
总体而言,UCCIX interface_layer _{\text{interface\_layer}} interface_layer模型在双语理解、翻译性能以及参数效率上展现了强大的优势。通过只微调界面层,我们能够在有效学习新语言的同时保持对原始语言的高效理解。这种方法在低资源语言环境中展现了良好的平衡性和实用性,证明了界面层与推理层划分在语言适应中的重要性。
表3展示了我们提出的框架(UCCIX interface_layer _{\text{interface\_layer}} interface_layer)与其他语言适配技术的比较,包括完全微调(UCCIX)、参数高效微调(UCCIX LoRA _{\text{LoRA}} LoRA、UCCIX ( IA ) 3 _{(\text{IA})^3} (IA)3)以及对比实验中使用推理层进行训练(UCCIX reasoning_layer _{\text{reasoning\_layer}} reasoning_layer)的效果。
主要观察
-
完全微调(UCCIX)
- 英语到爱尔兰语:33.34 BLEU
- 爱尔兰语到英语:46.36 BLEU
- 作为基准模型,UCCIX通过完全微调在两个翻译方向上均表现出色。
-
参数高效微调技术
- UCCIX ( IA ) 3 _{(\text{IA})^3} (IA)3:在英语到爱尔兰语方向获得19.53 BLEU,在爱尔兰语到英语方向获得39.48 BLEU。
- UCCIX LoRA _{\text{LoRA}} LoRA:在英语到爱尔兰语方向获得26.14 BLEU,在爱尔兰语到英语方向获得43.65 BLEU。
- 尽管这些方法通过参数高效微调提高了效率,但它们在性能上略逊色于完全微调的UCCIX。
-
推理层微调(UCCIX reasoning_layer _{\text{reasoning\_layer}} reasoning_layer)
- 英语到爱尔兰语:29.27 BLEU
- 爱尔兰语到英语:42.71 BLEU
- 使用推理层的微调在两个方向上的性能略高于其他参数高效微调方法,但低于我们的界面层微调方法。
-
界面层微调(UCCIX interface_layer _{\text{interface\_layer}} interface_layer)
- 英语到爱尔兰语:30.69 BLEU
- 爱尔兰语到英语:46.07 BLEU
- 该方法仅微调了界面层,效果与完全微调的UCCIX接近,特别是在爱尔兰语到英语方向,达到了几乎相同的BLEU分数(46.07对比46.36)。
总结
- UCCIX interface_layer _{\text{interface\_layer}} interface_layer 方法在参数效率和性能之间达到了良好的平衡,仅微调了25%的参数,却在两个翻译方向上实现了出色的效果。
- 与其他参数高效微调方法(UCCIX ( IA ) 3 _{(\text{IA})^3} (IA)3和 UCCIX LoRA _{\text{LoRA}} LoRA)相比,我们的方法在BLEU得分上有显著提升。
- 界面层微调的有效性验证了我们的假设,即微调模型的界面层可以提升其双语适应能力,而不会牺牲推理能力。这一方法在保持效率的同时能够有效地适应低资源语言的翻译任务。