#今日论文推荐#ICLR 2022 | 减少跨语言表示差异,字节跳动AI Lab通过流形混合增强跨语言迁移

字节跳动AILab与UCSB的研究者提出X-Mixup方法,通过混合流形减少跨语言表示差异,提升跨语言迁移学习效果。该方法针对多语言预训练模型存在的目标语言性能差距问题,提供“折衷”表示,有效增强跨语言理解任务的性能。
摘要由CSDN通过智能技术生成

#今日论文推荐#ICLR 2022 | 减少跨语言表示差异,字节跳动AI Lab通过流形混合增强跨语言迁移

字节跳动人工智能实验室、加利福尼亚大学圣塔芭芭拉分校

字节跳动人工智能实验室和加利福尼亚大学圣塔芭芭拉分校的研究者提出了跨语言流形混合(X-Mixup)方法为目标语言提供 “折衷” 的表示,让模型自适应地校准表示差异。此方法不仅显著地减少了跨语言表示差异,同时有效地提升了跨语言迁移的效果。
基于多语言预训练语言模型(比如 mBert、XLM-R 等),各种跨语言迁移学习方法取得了不错的迁移效果,但其中许多目标语言的性能仍然远远落后于源语言。字节跳动人工智能实验室和加利福尼亚大学圣塔芭芭拉分校通过分析发现这种跨语言性能差异和跨语言表示差异有很强的相关性,为了实现更好的跨语言迁移学习,本文提出了跨语言流形混合(X-Mixup)方法为目标语言提供 “折衷” 的表示,让模型自适应地校准表示差异。实验证明,X-Mixup 方法显著地减少了跨语言表示差异,同时提升了多个跨语言理解任务的性能。

深度模型在众多任务上取得了令人振奋的效果,但这些模型往往依赖足量的标注数据,这在多语言场景中很难满足。目前大部分标注数据通常来自流行语言(比如英文、中文等),很多小语种很难获取到足量的标注数据来进行有监督训练。跨语言迁移 (cross-lingual transfer) 可以从高资源的源语言 (source language) 迁移知识到低资源或零资源的目标语言 (target language),适用于当前标注资源不均衡的现状。
当前,多语言预训练模型基于不同语言的联合数据进行预训练,提供了不同语言统一的表示空间,在多种跨语言任务上取得了不错的效果。此外,Translate-train 方案从训练数据角度,通过机器翻译将源语言训练数据翻译到目标语言来构造伪标注数据,是一种简单有效的跨语言数据增强方案。Translate-test 方案从测试数据角度,直接将目标语言的测试集数据翻译到源语言,可以直接用源语言模型进行预测。尽管这些方案已经在跨语言迁移任务上取得了出色效果,但源语言和目标语言之间仍然有显著的性能差异。下表 [2] 展示了 XTREME 任务上基线模型在不同任务上的跨语言迁移性能差异 (cross-lingual transfer gap,源语言性能和目标语言平均性能差异) 。

论文题目:ENHANCING CROSS-LINGUAL TRANSFER BY MANI FOLD MIXUP
详细解读:https://www.aminer.cn/research_report/629448b57cb68b460fc593f0?download=falseicon-default.png?t=M4ADhttps://www.aminer.cn/research_report/629448b57cb68b460fc593f0?download=false
AMiner链接:https://www.aminer.cn/?f=cs

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值