#今日论文推荐#ICLR 2022 | 减少跨语言表示差异,字节跳动AI Lab通过流形混合增强跨语言迁移
字节跳动人工智能实验室、加利福尼亚大学圣塔芭芭拉分校
字节跳动人工智能实验室和加利福尼亚大学圣塔芭芭拉分校的研究者提出了跨语言流形混合(X-Mixup)方法为目标语言提供 “折衷” 的表示,让模型自适应地校准表示差异。此方法不仅显著地减少了跨语言表示差异,同时有效地提升了跨语言迁移的效果。
基于多语言预训练语言模型(比如 mBert、XLM-R 等),各种跨语言迁移学习方法取得了不错的迁移效果,但其中许多目标语言的性能仍然远远落后于源语言。字节跳动人工智能实验室和加利福尼亚大学圣塔芭芭拉分校通过分析发现这种跨语言性能差异和跨语言表示差异有很强的相关性,为了实现更好的跨语言迁移学习,本文提出了跨语言流形混合(X-Mixup)方法为目标语言提供 “折衷” 的表示,让模型自适应地校准表示差异。实验证明,X-Mixup 方法显著地减少了跨语言表示差异,同时提升了多个跨语言理解任务的性能。
深度模型在众多任务上取得了令人振奋的效果,但这些模型往往依赖足量的标注数据,这在多语言场景中很难满足。目前大部分标注数据通常来自流行语言(比如英文、中文等),很多小语种很难获取到足量的标注数据来进行有监督训练。跨语言迁移 (cross-lingual transfer) 可以从高资源的源语言 (source language) 迁移知识到低资源或零资源的目标语言 (target language),适用于当前标注资源不均衡的现状。
当前,多语言预训练模型基于不同语言的联合数据进行预训练,提供了不同语言统一的表示空间,在多种跨语言任务上取得了不错的效果。此外,Translate-train 方案从训练数据角度,通过机器翻译将源语言训练数据翻译到目标语言来构造伪标注数据,是一种简单有效的跨语言数据增强方案。Translate-test 方案从测试数据角度,直接将目标语言的测试集数据翻译到源语言,可以直接用源语言模型进行预测。尽管这些方案已经在跨语言迁移任务上取得了出色效果,但源语言和目标语言之间仍然有显著的性能差异。下表 [2] 展示了 XTREME 任务上基线模型在不同任务上的跨语言迁移性能差异 (cross-lingual transfer gap,源语言性能和目标语言平均性能差异) 。
论文题目:ENHANCING CROSS-LINGUAL TRANSFER BY MANI FOLD MIXUP
详细解读:https://www.aminer.cn/research_report/629448b57cb68b460fc593f0?download=falsehttps://www.aminer.cn/research_report/629448b57cb68b460fc593f0?download=false
AMiner链接:https://www.aminer.cn/?f=cs