AdaMergeX: Cross-Lingual Transfer with Large Language Models via Adaptive Adapter Merging-CSDN博客

本文链接：https://blog.csdn.net/c_cpp_csharp/article/details/136811168

AdaMergeX是一种新的跨语言迁移方法，通过自适应适配器合并实现任务能力与语言能力的解耦。在有限训练数据条件下，它使用参考任务确定适配器差异分布，从而将源语言的任务能力转移到目标语言。实验表明，AdaMergeX在各种环境下优于现有方法，且具有鲁棒性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

本文是LLM系列文章，针对《AdaMergeX: Cross-Lingual Transfer with Large Language Models via
Adaptive Adapter Merging》的翻译。

摘要

作为对特定语言的目标任务进行直接微调的一种有效替代方案，跨语言迁移通过分别对源语言中的目标任务和目标语言中的另一个选定任务进行微调来解耦“任务能力”和“语言能力”，从而解决了训练数据有限的挑战。然而，它们未能将任务能力与源语言或语言能力与所选任务完全分离。在本文中，我们承认任务能力和语言能力之间的相互依赖，并将我们的注意力引向目标语言和源语言在任务上的差距。由于这种差距消除了任务的影响，我们假设它在各个任务中保持一致。基于这一假设，我们提出了一种新的跨语言迁移方法AdaMergeX，该方法利用自适应适配器合并。通过引入引用任务，我们可以确定，在两种语言中，对引用任务进行微调的适配器的分歧与对目标任务进行微调后的适配器的差异遵循相同的分布。因此，我们可以通过组合其他三个适配器来获得目标适配器。此外，我们还提出了一种结构自适应的适配器合并方法。我们的实证结果表明，我们的方法产生了新的有效的跨语言迁移，在所有环境中都优于现有方法。