机器翻译之Irish-based Large Language Model with Extreme Low-Resource Settings in Machine Translation

six.学长

于 2024-10-04 14:13:43 发布

阅读量1k

点赞数 23

分类专栏：机器翻译文章标签：机器翻译语言模型人工智能

本文链接：https://blog.csdn.net/m0_51200050/article/details/142702801

版权

Abstract

大规模语言模型（LLMs）在自然语言处理的诸多任务中表现出了卓越的性能。然而，在机器翻译，尤其是翻译资源匮乏的语言时，它们的成功表现并不总是显著。这项研究重点探讨了LLMs的多语言处理能力，并以爱尔兰语作为案例，研究了其在英语与爱尔兰语之间的翻译任务中的表现。

研究的主要内容

语言适配框架的提出
针对现有的大规模英语为主的语言模型（称为“英语中心的LLMs”），研究人员提出了一种动态、高效的语言适配框架。这种框架对模型的不同层进行特定调整，并对其进行微调，旨在提高机器翻译的效果。这种方法的重点是，在翻译低资源语言（如爱尔兰语）时，通过对模型的层次进行语言适配，能够有效地改善翻译的质量。
主要发现与关键见解
- 不同层的功能：模型的不同层在翻译过程中发挥了不同的作用。具体来说，模型的某些层在处理语言理解，而其他层则更侧重于任务推理。
- 广泛的预训练：要提高翻译质量，模型需要在源语言（英语）和目标语言（爱尔兰语）上进行充分的预训练，以便在翻译任务中实现更好的性能。
- 针对性微调：研究发现，针对机器翻译任务进行的微调能够显著提高模型的翻译表现。实验结果显示，经过这种微调后，模型的英语到爱尔兰语翻译准确率提高了36.7%，而爱尔兰语到英语的翻译准确率更是提高了133.4%。

具体案例与例子

为了更好地理解这些技术的应用，我们可以考虑以下两个具体例子：

示例1：语言理解层的作用
例如，在翻译过程中，模型的前几层会专注于对词汇和句法的基本理解。假设我们要将“Dia duit”从爱尔兰语翻译成英语。模型的初始层会通过预训练来理解“Dia”表示“God”，“duit”表示“to you”，然后在更高层次的推理层中将其理解为“Hello”这样更贴切的翻译。因此，前几层主要进行基本语言的解析，而后续层则是对语言语义的更高层次推理。
示例2：针对性微调的效果
假设我们在低资源语言环境中，进行英语到爱尔兰语的翻译。传统模型可能会翻译出“Hello, friend”这样的句子为“Dia duit, cara”。而通过特定的微调后，模型可以根据爱尔兰语的语言习惯和语境，改进翻译为“Dia dhuit, a chara”，更符合爱尔兰语的语法规则和表达习惯。因此，针对性微调可以显著提升翻译的准确性，使其更自然。

结论

通过上述方法和框架的改进，研究表明大规模语言模型在低资源语言的翻译中可以取得显著的进步。

1 Introduction

Paragraph1

大规模语言模型（LLMs）最近在自然语言处理（NLP）领域引发了革命性变革，在众多任务上展现出卓越的性能。这些模型基于Transformer架构，通过大量数据进行训练，从而具备了卓越的语言理解能力。然而，机器翻译领域，特别是针对低资源语言的翻译，仍然面临显著挑战（Bawden 和 Yvon，2023）。

传统神经机器翻译（NMT）方法的挑战

传统的神经机器翻译方法通常对数据的依赖性很强。它们往往需要大量的平行数据对（即源语言和目标语言的成对句子）来获得较高的翻译质量。这种需求对高资源语言（如英语和法语）较容易满足，但对于数据匮乏的低资源语言（如爱尔兰语或威尔士语）来说，获取大量高质量的平行数据几乎不可能，因此传统NMT方法在低资源任务中的应用受到极大限制。

具体的挑战示例

例如，在翻译爱尔兰语和英语之间的文本时，由于爱尔兰语的文本数据极其有限，传统NMT方法很难获得可靠的翻译效果。假设一个模型在英语到法语的翻译中有数百万对平行句子数据支持，能轻松处理大多数句子结构。但在爱尔兰语的情况下，可能仅有几千个平行句对，这会导致模型在翻译中出现大量的词汇错误或语法不当的现象。

大规模语言模型的优势与不足

大规模语言模型因其海量的预训练数据和Transformer架构的强大计算能力，具备了较好的语言迁移能力。这种迁移能力使得它们在缺乏平行数据的情况下，仍然能够一定程度上理解低资源语言的结构和表达方式。然而，由于LLMs的预训练主要基于高资源语言，低资源语言的翻译能力相对较弱，且模型在翻译任务中依然表现出数据利用效率低的问题。

结论

因此，虽然LLMs在许多NLP任务中展示了巨大的潜力，但在低资源语言的机器翻译任务中仍存在显著的改进空间。如何提高模型的数据利用效率，减少对大量平行数据的依赖，将是未来研究的重要方向。

补充1.1 NMT、LLMs

NMT（Neural Machine Translation，神经机器翻译）和LLMs（Large Language Models，大规模语言模型）是现代自然语言处理（NLP）领域的重要技术。

1. 神经机器翻译（NMT）

神经机器翻译是一种基于深度学习的机器翻译方法，用于将一种语言的文本翻译成另一种语言。NMT的核心是通过神经网络来学习和生成目标语言的翻译结果。与传统的基于规则或统计的机器翻译方法不同，NMT直接通过大量数据进行训练，自动学习语言之间的对应关系，不需要人为制定复杂的翻译规则。

NMT 的基本工作原理

NMT模型通常基于深度神经网络，尤其是近年来广泛使用的序列到序列（Sequence-to-Sequence）模型。它包含两个核心组件：

编码器（Encoder）：将源语言文本（如英语句子）编码为一个潜在的向量表示，捕捉原句的语义和结构信息。
解码器（Decoder）：基于编码器的输出，将这些向量表示解码为目标语言文本（如法语句子）。

现代NMT模型通常采用Transformer架构，一种更为高效且并行化的网络结构，使模型可以更快、更准确地进行翻译任务。Transformer架构引入了“注意力机制（Attention Mechanism）”，可以帮助模型聚焦于源句子中更为关键的词语，提高翻译的准确性。

NMT 的优缺点

优点：翻译精确、可处理复杂句子结构，支持大规模数据的学习。
缺点：需要大量平行数据（即源语言和目标语言成对的数据），对于低资源语言的翻译效果较差，且在处理长句子或复杂句子时可能会出现性能下降。

NMT 的应用举例

NMT广泛应用于各种自动翻译系统，如Google翻译、DeepL等。比如，当你输入“Hello, how are you?”，NMT会将其翻译为其他语言，如法语的“Bonjour, comment ça va?”。在这个过程中，NMT模型理解了“Hello”对应“Bonjour”，“how are you”对应“comment ça va”。

2. 大规模语言模型（LLMs）

大规模语言模型（LLMs）是近年来自然语言处理领域的重要突破。它们是基于Transformer架构的深度神经网络，通过预训练大量文本数据，具备了极高的语言理解、生成能力。LLMs不仅可以用于翻译，还可以完成文本生成、摘要、问答等多种任务。GPT（如ChatGPT）和BERT等都是典型的大规模语言模型。

LLMs 的基本工作原理

LLMs主要通过以下两个阶段进行训练：

预训练（Pre-training）：模型被训练在大量文本数据上，学习语言的语法、词汇、语义和一些世界知识。训练的目标是让模型学会预测下一个词语或填补句子中的空缺，例如在句子“今天的天气很____”中预测“好”或“晴朗”。
微调（Fine-tuning）：在特定任务或领域上对模型进行微调，以提升其在特定任务上的表现。比如在翻译任务中，模型会被微调以更好地学习源语言和目标语言的映射关系。

LLMs 的优缺点

优点：LLMs具备广泛的语言能力，能够完成多种NLP任务；通过微调可以适应特定任务，具备一定的泛化能力。
缺点：LLMs的训练过程耗费大量计算资源，且由于训练数据主要来自高资源语言，因此对低资源语言的支持较弱；在某些任务中可能会出现不准确或“编造”的情况。

LLMs 的应用举例

LLMs应用广泛，不仅限于翻译。比如，ChatGPT可以进行自然对话、提供知识解答、生成创意内容等。若你向LLM询问“Explain quantum mechanics in simple terms”，模型会理解你的问题并给出关于量子力学的解释。

总结

NMT 专注于翻译，通过神经网络将源语言文本转换为目标语言文本，适用于各种语言对翻译，但对低资源语言的支持有限。
LLMs 是通用的语言模型，支持更广泛的NLP任务，包括翻译、问答、文本生成等，具备良好的语言理解能力，但对低资源语言支持仍有待改进。

两者结合在一起时，可以利用LLMs的语言理解能力来改进NMT在低资源语言中的表现，提升模型在多语言任务中的适用性。

Paragraph2

该论文旨在探讨大规模语言模型（LLMs）的多语言能力，特别是针对极低资源语言——爱尔兰语，以及英语和爱尔兰语之间的翻译任务。爱尔兰语被列为濒危语言，在机器翻译中面临独特的挑战。具体而言，爱尔兰语的平行语料库极为有限（Lankford等，2022；Ojha等，2021），而且在预训练数据集中占比稀少（Barry等，2022；Tran等，2024），因此爱尔兰语成为了一个重要的研究对象，有助于探索LLMs在低资源语言环境下的潜力。

目前的LLMs如ChatGPT（OpenAI，2022, 2024）、BLOOM（Workshop等，2023）和Llama系列（Touvron等，2023a, b）虽然经过多语言数据集的预训练，但主要还是偏向英语。尽管这些模型已具备一定的多语言处理能力，但它们在低资源语言之间有效翻译的能力仍然是一个未解的问题。这项研究旨在揭示这些LLMs在低资源环境中的多语言适应性，尤其是爱尔兰语的翻译能力是否能达到实际应用水平。

补充1.2

在这里插入图片描述

Paragraph3

本研究在将大规模语言模型（LLMs）应用于低资源语言翻译的过程中，提出了几项关键见解，以提升模型的双语能力，具体包括对源语言和目标语言的广泛预训练需求。为此，我们设计了一种新的框架，用于将英语为主的LLMs高效地适配到低资源、未见过的语言环境中，并在机器翻译任务上进一步微调。

方法概述

我们的框架采用了两阶段训练过程，具体如下：

动态持续预训练
在这个阶段中，我们并非对LLM的所有层都进行训练，而是根据模型层的语言能力来选择性地训练特定层。这种语言能力是通过检索得分（retrieval scores）来衡量的。这一选择性训练的过程帮助模型在高效适配的同时避免了不必要的计算开销，从而在双语理解上取得了显著改进。
专用微调
在完成动态预训练后，我们进一步对模型进行微调，使用特定的机器翻译数据集，以进一步提高翻译质量。该微调过程的重点是优化模型的语言理解和推理层，使其更加适应于双语环境。这种方法仅需训练模型的一小部分参数就能实现语言的有效适配，从而大大提高了训练效率。

研究成果

通过这种方法，我们在爱尔兰语和英语之间的翻译任务上实现了显著提升：

爱尔兰语到英语翻译：相比以往的最先进方法，在LoResMT-2021数据集上，我们实现了高达46.14的BLEU分数提升。
英语到爱尔兰语翻译：在同一数据集上，相较于之前的方法，BLEU分数提升了13.22。

关键优势

层选择训练：通过专注于负责语言理解和推理的层，我们能够在不增加大量参数的前提下，有效地增强模型的双语能力。
计算效率：整个适配过程仅需模型少量参数的训练，因而在计算资源方面更加高效。

总结

我们的研究证明了，在低资源语言的机器翻译中，LLMs可以通过选择性预训练和微调获得显著提升。这一方法不仅提升了模型的翻译质量，还极大地优化了计算效率，为低资源语言机器翻译的未来应用提供了有效的解决方案。

补充1.3 两阶段训练过程

动态持续预训练

动态持续预训练是一种针对模型在特定任务或特定语言上进一步适应的训练方法。这种方法并非对整个模型进行全面训练，而是选择性地对模型的特定层进行训练，以此来提高模型对新语言的理解能力。这种“选择性训练”可以让模型更高效地适应新任务，尤其在低资源环境下减少计算资源和时间消耗。

具体操作

语言能力检索：首先，我们会使用检索得分（retrieval scores）来评估每个层在新语言上的表现，找出那些在该语言上表现较弱的层。
选择性训练：然后，仅对这些薄弱层进行训练，而不是整个模型。这样可以集中资源，提高新语言的理解能力。

示例

假设我们有一个主要用于英语任务的LLM模型，我们希望适应它去理解爱尔兰语。通过检索得分，我们发现模型中第4层和第8层在爱尔兰语的词汇和语法理解上有不足。因此，我们仅对第4层和第8层进行动态预训练，而其他层保持不变。这种选择性训练使模型在处理爱尔兰语时能够更好地理解其结构和含义。

专用微调

专用微调是指在特定任务上对模型进一步精调，以提高该任务的性能。在机器翻译的背景下，专用微调是指在特定的翻译任务数据集上（如英语到爱尔兰语）对模型进行训练，以提高翻译质量。这一步骤主要关注语言理解和推理层的优化，确保模型可以生成更准确、更自然的翻译。

具体操作

任务数据集微调：在完成动态持续预训练后，模型会进一步在特定的机器翻译数据集上进行微调，如英语-爱尔兰语平行数据集。通过这一过程，模型不仅增强了新语言的理解能力，还提高了其在翻译任务中的表现。
目标优化：微调的主要目标是调整模型的参数，使其更符合任务需求，例如在句法、语义上更准确地进行翻译。

示例

假设在动态持续预训练之后，我们的模型在爱尔兰语的基础理解上已经有了一定的提升。接下来，我们可以将其在“LoResMT-2021”数据集上进行专用微调。LoResMT-2021是一个专门用于爱尔兰语和英语的平行翻译数据集。在这个数据集上微调后，模型将更好地掌握爱尔兰语的句法和语义特征，使其在翻译任务中产生更准确的输出。

综合案例：从英语到爱尔兰语的翻译流程

假设我们有一个LLM主要是英语为主的，现在我们想要它翻译英语到爱尔兰语：

动态持续预训练：通过检索得分，我们发现模型的中间层（如第4层、第8层）对爱尔兰语的语法结构理解较差。我们就对这些层进行有针对性的训练，输入更多的爱尔兰语数据，让模型掌握爱尔兰语的基本特性。
专用微调：在持续预训练后，模型已经具备了一些爱尔兰语的基础知识。我们接着用LoResMT-2021数据集对模型微调。此时，模型不仅了解爱尔兰语的基本结构，还能在翻译中准确转换语言的意思和风格。
翻译效果提升：经过这两个阶段后，模型可以更准确地将“Hello, how are you?”翻译成“Dia dhuit, conas atá tú?”，而不是简单的逐字翻译。这说明模型不仅理解了词汇，还掌握了目标语言的语境和表达习惯。

这种两阶段的训练方式确保了模型能够高效地学习新语言，并在特定翻译任务中表现出色。

2 Related Work

2.1 Neural Machine Translation

2.1 神经机器翻译 (NMT)

神经机器翻译（NMT）已成为机器翻译领域的主流方法，这主要归功于序列到序列（Sequence-to-Sequence）模型的成功以及注意力机制的引入。特别是Transformer模型（Vaswani等，2017）的出现，为NMT带来了更高效和可扩展的架构。Transformer完全依赖于注意力机制，摒弃了传统的循环神经网络（RNN）结构，使得模型在处理长文本序列时具有更高的效率和准确性。如今，Transformer已经成为了大多数最先进（SoTA）NMT系统的基础（Lankford等，2021；Team等，2022）。

尽管NMT技术取得了显著进展，但在翻译低资源语言方面仍面临困难。低资源语言缺乏足够的训练数据，使得NMT系统难以获得高质量的翻译效果。为了解决这一问题，研究人员提出了多种方法：

迁移学习（Transfer Learning）：迁移学习通过从高资源语言中学习相关特性，并将这些知识转移到低资源语言中，从而提高翻译质量（Zoph等，2016；Chen和Abdul-mageed，2023）。
多语言NMT（Multilingual NMT）：该方法利用多语言数据，通过让模型在多个语言对上进行训练，使低资源语言也能从高资源语言的数据中获益（Johnson等，2017；Dabre等，2020）。

这些方法通常会利用高资源语言的信息或单语数据来提高低资源语言的翻译质量。然而，仍然存在显著的挑战，其中最主要的问题是对平行数据的依赖。对于低资源语言来说，平行数据的获取相当困难，这极大地限制了NMT在这些语言上的性能。

本研究的创新：LLMs在NMT中的应用

在本研究中，我们探讨了一种新的范式，即通过将大规模语言模型（LLMs）应用于神经机器翻译领域，以进一步提升低资源语言的翻译效果（Workshop等，2023；Bawden和Yvon，2023）。LLMs通过大规模预训练积累了广泛的语言知识和语义理解，我们研究是否可以将这种能力转移到NMT任务中，尤其是针对低资源语言的翻译任务。

然而需要注意的是，尽管LLMs在多个语言上进行了预训练，它们的训练数据通常是单语的，即每个样本通常只包含一种语言的数据。这种单语训练可能会对模型在跨语言翻译任务中的表现造成影响，因为模型在预训练时缺少直接的双语映射关系。

2.2 Large Language Models

2.2 大规模语言模型（LLMs）

大规模语言模型（LLMs）因其卓越的文本生成能力和在多种自然语言处理（NLP）任务中的多功能性而备受关注。无论是闭源的ChatGPT，还是开源的BLOOM（Workshop等，2023）和Llama系列（Touvron等，2023a,b），这些模型在处理多种语言和任务上均表现出色。然而，这些模型主要集中在英语等广泛使用的语言上，这导致其在低资源语言应用中表现出显著的差距。

近来的研究（Bawden和Yvon，2023；Hendy等，2023）调查了LLMs在机器翻译任务中的能力，发现这些模型在高资源语言的翻译任务中表现优异。然而，对于低资源语言（如爱尔兰语）来说，LLMs的有效性依然受限，主要原因在于缺乏充足的训练数据。

针对低资源语言的LLM：UCCIX模型

UCCIX（Tran等，2024）是一个最新开发的LLM，专注于支持爱尔兰语——一种被联合国教科文组织（UNESCO，2010）认定为“确定濒危”的语言。由于爱尔兰语数据的稀缺，UCCIX的作者提出了一种语言适配框架，以使得英语为主的LLM能够成为双语模型。然而，研究过程中发现，在爱尔兰语数据上持续预训练的过程中，模型可能出现灾难性遗忘（catastrophic forgetting）的问题，即模型在学习爱尔兰语时会逐渐丧失其对英语的掌握能力。

研究目的与方法

本研究以爱尔兰语为案例，探索大规模语言模型在爱尔兰语和英语翻译任务中的潜在应用，作为保护爱尔兰语、防止其流失的努力之一。我们分析了LLM的双语能力，并提出了一种自适应语言适配策略，该策略旨在平衡模型在两种语言之间的性能。具体来说，我们的适配策略通过在爱尔兰语和英语上交替训练模型，使其能够在同时保留两种语言的理解和生成能力的基础上高效适应低资源语言环境。

研究的目标

通过这种方法，我们的目标是：

增强LLM的低资源语言适应能力：改进模型在爱尔兰语上的表现。
维持模型的高资源语言能力：防止在爱尔兰语训练过程中对英语知识的遗忘。
在高低资源语言间实现平衡：确保模型在高资源（如英语）和低资源（如爱尔兰语）语言上均具有强健的性能。

这一策略旨在优化LLMs在低资源环境中的适应效率，从而确保模型在高、低资源语言环境中均能表现良好。这不仅为机器翻译任务提供了新的思路，也为保护濒危语言如爱尔兰语提供了支持。

2.3 Low-Resource Settings

2.3 低资源环境

研究低资源语言在自然语言处理（NLP）中的挑战是非常重要的，因为语言的多样性以及对包容性技术的需求日益增加。强大的模型通常需要大量带注释的数据集进行训练，而低资源语言往往缺乏这些资源，因此传统方法难以在这些语言上取得良好表现。

根据最新的研究调查（Ranathunga等，2023），如果平行语料库中包含的平行句子少于50万句，这样的语言对在机器翻译场景中被视为“低资源”；如果平行句子少于10万句，则被认为是“极低资源”。爱尔兰语作为一种濒危语言，属于“极低资源”类别。现有研究汇总了不同来源的爱尔兰语数据集，平行句数量大约为25,000句（Lankford等，2022）到52,000句（Lankford等，2021）不等。

探索单语数据的潜力

鉴于平行数据极其有限，我们探讨是否可以利用大量的单语数据，通过大规模语言模型（LLMs）来改善翻译表现。尽管爱尔兰语的平行数据稀缺，但在新闻、文学、社交媒体等领域，仍然存在一定量的单语数据（例如，仅包含爱尔兰语的文本），这些数据可以用来增强模型的语言理解和生成能力。

研究成果

我们的研究结果表明，即使数据稀缺，通过进一步微调LLMs在机器翻译任务上的表现依然可以获得显著提升。具体来说，我们的方法包括：

使用单语数据增强：通过将单语数据结合到模型的训练过程中，使模型在有限的平行数据上具备更好的表现。
LLM微调：在少量平行数据的基础上，对LLMs进行微调，提升模型在特定翻译任务中的表现。

总结

这些方法表明，即便在数据极其稀缺的情况下，LLMs在低资源环境中依然可以通过单语数据的辅助和进一步的微调获得显著的翻译改进。这不仅有助于提升爱尔兰语等低资源语言的机器翻译质量，也为未来的低资源语言研究提供了新的方法和方向。

3 Method

3.1 Preliminary Explorations —Paragraph1

3.1 初步探索

大规模语言模型（LLMs）通常采用仅解码的Transformer架构，由多层堆叠的Transformer层组成。尽管LLMs的训练数据以英语为主，但由于数据集的庞大，通常也会包含少量的多语言文本。这引发了一个问题：LLMs能否有效理解这些低频语言。例如，在Llama系列模型中，爱尔兰语仅占训练语料的0.005%以下。

实验概述：少样本提示（Few-Shot Prompting）

为了探讨LLMs在低资源语言上的能力，我们进行少样本提示实验，评估其在**英语（主流语言）与爱尔兰语（极低资源语言）**之间的机器翻译任务表现。少样本提示允许LLMs在特定的输入模式下运用其预训练知识完成翻译任务。我们分别测试爱尔兰语到英语（评估模型对低资源语言的理解）和英语到爱尔兰语（评估模型生成目标语言文本的能力）两个方向的翻译。

表1展示了用于提示的样例输入格式，实验结果如表2和图1所示，揭示了以下关键见解：

实验结果与分析

LLMs对低资源语言的理解能力有限
英语为主的LLMs对低资源语言（如爱尔兰语）有一定的理解能力，但在生成这些语言的文本时存在明显困难。这一现象在爱尔兰语到英语的翻译任务中尤为突出。例如，gpt-3.5-turbo和Llama 2-70B在爱尔兰语到英语的方向上超过了之前特定任务的最先进方法（Lankford等，2021），提升了高达7.97的BLEU分数。这表明，虽然LLMs对低资源语言的生成能力受限，但在理解上表现尚可。
有效的翻译需要在两种语言上广泛的预训练
UCCIX模型在本实验中优于以英语为主的LLMs，并在爱尔兰语翻译任务中胜过参数量更大的gpt-3.5-turbo模型，这说明在两种语言上进行广泛的预训练对低资源语言翻译任务有重要帮助。UCCIX因其双语预训练，使得其在爱尔兰语任务中表现更强。
少样本提示有助于任务格式的跟随
在提供示例（即少样本提示）时，LLMs的表现有所提升，这表明通过少量的示例，模型能够更好地理解任务格式，从而提升翻译效果。这一结果与以往研究（Brown等，2020）的发现一致。

总结

通过少样本提示实验，我们验证了LLMs对低资源语言的有限理解能力及其生成能力的不足。进一步，实验也表明，在低资源语言任务上，广泛的双语预训练和少样本提示能够提升模型的性能和任务格式的适应性。这些发现为未来如何优化LLMs在低资源环境中的表现提供了重要参考。
在这里插入图片描述

表1展示了用于评估预训练大规模语言模型（LLMs）在机器翻译任务上的5-shot提示示例。左侧的提示示例用于将英语翻译成爱尔兰语，而右侧的示例用于将爱尔兰语翻译成英语。每个示例中都给出了几个句对，包括源语言（Béarla表示英语，Gaeilge表示爱尔兰语）和目标语言的句子翻译，帮助模型理解任务格式和内容。

具体来说，每个提示都包含了多组句对，前几组提供了英语和爱尔兰语的句子对，而最后一行留出一个空白的{input}，表示模型需要生成对应的翻译。这种5-shot提示的结构帮助模型更好地学习翻译任务的格式和上下文。

这种少样本提示方法可以增强LLMs在低资源语言（如爱尔兰语）上的表现，使模型能够在已有的提示格式下更准确地生成翻译内容。

3.1 Preliminary Explorations —Paragraph2

为进一步研究LLM的行为，而不依赖于少样本提示及其变体，我们转向分析句子检索任务。句子检索任务（Artetxe和Schwenk，2019；Dufter和Schütze，2020；Yong等，2023）的目标是：给定一种新语言（如爱尔兰语）的句子表示，识别其在英语中的最接近句子。通过这种方法，我们可以计算不同预训练模型在每一层的句子检索准确率，从而了解模型的语言理解能力是如何在不同层次上逐步体现的。

研究方法

我们选择Llama 2模型作为主要分析对象，因其作为一个开源的广泛使用的LLM，具有较好的代表性。在实验中，我们对Llama 2的各个层进行分析，观察不同层次上模型对语言理解的贡献，以进一步探讨哪些层级更擅长于处理低资源语言的句子检索任务。

研究目的

该分析的目的是揭示模型在低资源语言上的理解能力是如何随层次而变化的，并确定模型的哪一层在跨语言的句子表示和理解上更具优势。图1显示了不同模型在少样本提示（few-shot prompting）条件下，随着样本数量的增加，在LoResMT-2021数据集上进行英语到爱尔兰语翻译（图(a)）和爱尔兰语到英语翻译（图(b)）的性能表现（以BLEU分数衡量）。
在这里插入图片描述

主要观察与分析

英语到爱尔兰语翻译（图(a)）
- UCCIX模型：在所有少样本提示数量下，UCCIX表现最佳，BLEU分数始终稳定在最高水平，接近35分，表明其在极低资源语言（如爱尔兰语）上的翻译能力优于其他模型。
- Llama 2-70B 和 Llama 2-13B：这两个模型的表现相对较好，随着少样本数量增加，BLEU分数稍有提升，说明少样本提示对模型格式理解和翻译质量有一定帮助。
- BLOOM-7B1：BLOOM模型的表现较差，即使在少样本提示增加的情况下，BLEU分数提升也非常有限，表明其在处理低资源语言时的表现受限。
爱尔兰语到英语翻译（图(b)）
- UCCIX模型：再次表现出色，在所有少样本数量条件下保持最高的BLEU分数，约为40以上。这表明UCCIX对爱尔兰语到英语的翻译任务有很强的适应性。
- Llama 2-70B：随着少样本数量的增加，该模型的BLEU分数有显著提升，逐渐接近UCCIX，显示出较好的翻译能力。
- Llama 2-13B 和 BLOOM-7B1：相对而言，这两个模型的表现较低，尤其是BLOOM-7B1在低资源语言的翻译任务中BLEU分数仍然维持在较低水平。

结论

少样本提示的效果：在英语到爱尔兰语和爱尔兰语到英语的翻译任务中，增加少样本提示数量一般会提升模型的BLEU分数，帮助模型更好地理解任务格式，尤其是在爱尔兰语到英语的翻译任务中效果更明显。
模型的低资源语言适应性：UCCIX在低资源语言上的表现优于其他模型，证明其在双语预训练上具有优势。而Llama 2系列（尤其是Llama 2-70B）在少样本提示的帮助下，翻译性能也有所改善。

总体而言，UCCIX在低资源翻译任务上表现最佳，而少样本提示对其他模型的翻译性能也有积极影响，尤其在少样本资源有限的情况下能有效提升翻译质量。