本文是LLM系列文章,针对《AdaMergeX: Cross-Lingual Transfer with Large Language Models via
Adaptive Adapter Merging》的翻译。
摘要
作为对特定语言的目标任务进行直接微调的一种有效替代方案,跨语言迁移通过分别对源语言中的目标任务和目标语言中的另一个选定任务进行微调来解耦“任务能力”和“语言能力”,从而解决了训练数据有限的挑战。然而,它们未能将任务能力与源语言或语言能力与所选任务完全分离。在本文中,我们承认任务能力和语言能力之间的相互依赖,并将我们的注意力引向目标语言和源语言在任务上的差距。由于这种差距消除了任务的影响,我们假设它在各个任务中保持一致。基于这一假设,我们提出了一种新的跨语言迁移方法AdaMergeX,该方法利用自适应适配器合并。通过引入引用任务,我们可以确定,在两种语言中,对引用任务进行微调的适配器的分歧与对目标任务进行微调后的适配器的差异遵循相同的分布。因此,我们可以通过组合其他三个适配器来获得目标适配器。此外,我们还提出了一种结构自适应的适配器合并方法。我们的实证结果表明,我们的方法产生了新的有效的跨语言迁移,在所有环境中都优于现有方法。