AdaMergeX: Cross-Lingual Transfer with Large Language Models via Adaptive Adapter Merging

828 篇文章

已下架不支持订阅

AdaMergeX是一种新的跨语言迁移方法,通过自适应适配器合并实现任务能力与语言能力的解耦。在有限训练数据条件下,它使用参考任务确定适配器差异分布,从而将源语言的任务能力转移到目标语言。实验表明,AdaMergeX在各种环境下优于现有方法,且具有鲁棒性。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

本文是LLM系列文章,针对《AdaMergeX: Cross-Lingual Transfer with Large Language Models via
Adaptive Adapter Merging》的翻译。

AdaMergeX:通过自适应适配器合并实现大型语言模型的跨语言迁移

摘要

作为对特定语言的目标任务进行直接微调的一种有效替代方案,跨语言迁移通过分别对源语言中的目标任务和目标语言中的另一个选定任务进行微调来解耦“任务能力”和“语言能力”,从而解决了训练数据有限的挑战。然而,它们未能将任务能力与源语言或语言能力与所选任务完全分离。在本文中,我们承认任务能力和语言能力之间的相互依赖,并将我们的注意力引向目标语言和源语言在任务上的差距。由于这种差距消除了任务的影响,我们假设它在各个任务中保持一致。基于这一假设,我们提出了一种新的跨语言迁移方法AdaMergeX,该方法利用自适应适配器合并。通过引入引用任务,我们可以确定,在两种语言中,对引用任务进行微调的适配器的分歧与对目标任务进行微调后的适配器的差异遵循相同的分布。因此,我们可以通过组合其他三个适配器来获得目标适配器。此外,我们还提出了一种结构自适应的适配器合并方法。我们的实证结果表明,我们的方法产生了新的有效的跨语言迁移,在所有环境中都优于现有方法。

1 引言

2 背景

</

已下架不支持订阅

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值